原贴链接

我们刚刚发布了Ichigo - llama3.1的最新更新。简要说明一下:Ichigo是我们Homebrew Research基于Llama3.1构建的本地实时语音AI。这种训练方法也适用于其他模型。重点:MMLU得分高达64.66;拒绝非语音输入;扩展了上下文处理 - 能记住更多对话内容;更好的多轮追踪 - 改进了对复杂的来回对话的处理。链接:GitHub仓库在线演示、[模型权重](https://huggingface.co/collections/homebrewltd/ichigo - v04 - 67317bde6dfdfdd55dddbc6e)

讨论总结

整个讨论围绕Ichigo - llama3.1 v0.4的更新展开。有对其拒绝非语音输入的好奇与疑问并得到开发者解释,有关于它基于Llama 3.1哪个模型的询问与回答,对其性能的质疑,对技术演示中图片的分析和疑惑,还有对产品功能不全而表示拒绝使用的声音,整体氛围比较平和,大家理性地提出问题和发表看法。

主要观点

  1. 👍 对拒绝非语音输入表示好奇并提出疑问。
    • 支持理由:想要构建更好的语音模型需要多种输入方式,对拒绝非语音输入不理解。
    • 反对声音:开发者解释是对不理解输入的拒绝,且支持文本输入。
  2. 🔥 询问Ichigo - llama3.1 v0.4基于Llama 3.1的哪个模型。
    • 正方观点:查看GitHub仓库未得到明确答案所以提问。
    • 反方观点:无。
  3. 💡 质疑基于此模型的MMLU分数与原模型的差异。
    • 理由:原模型MMLU为68,对该版本分数存疑。
  4. 💡 图片中的重复现象让人觉得奇怪。
    • 理由:视觉上重复,感觉像被附身一样不正常。
  5. 💡 质疑该AI不能检测多种声音。
    • 理由:认为该AI应具备检测多种声音能力,实际却没有。

金句与有趣评论

  1. “😂 Pedalnomica: I’m curious, why did you choose to reject non - voice inputs?”
    • 亮点:直接提出对产品特性的好奇疑问。
  2. “🤔 Pedalnomica: I’m guessing you all are probably in "make speech - to - speech work well, focus on anything else later" mode, but I’d still love you hear your thoughts.”
    • 亮点:对开发者的开发模式进行合理猜测。
  3. “👀 jd_3d:Which Llama 3.1 model is it based on? I checked the GitHub Repo but it wasn’t obvious what you are using.”
    • 亮点:针对产品基于的模型提出疑问且查看资料未得答案。
  4. “😉 noobgolang: oh we just want to make it human like "noisy"”
    • 亮点:对产品拒绝非语音输入提出一种有趣的解释。
  5. “🤨 it keeps saying it bro wtf this shit is possesed help me”
    • 亮点:生动形象地表达对图片中重复现象的疑惑。

情感分析

总体情感倾向比较中性。主要分歧点在于对产品功能和特性的理解上,如拒绝非语音输入的真正含义、产品基于的模型、MMLU分数以及检测声音种类等方面。可能的原因是大家对产品有不同的期望和理解,同时也有对新技术的探索和疑惑。

趋势与预测

  • 新兴话题:关于语音识别导致性能损失可能会引发更多讨论。
  • 潜在影响:如果产品在功能和性能方面不能满足用户期望,可能影响其在语音AI市场的推广。

详细内容:

《Ichigo-llama3.1 v0.4 引发的热门讨论》

近日,关于 Ichigo-llama3.1 v0.4 的更新在 Reddit 上引起了广泛关注。此帖获得了众多点赞和大量评论。原帖主要介绍了 Ichigo-llama3.1 的最新进展,包括 MMLU 分数提升至 64.66、拒绝非语音输入、更好的处理多轮对话等亮点,并提供了相关链接,如 GitHub 仓库、实时演示和模型权重。

这一话题引发了诸多方向的讨论。文章将要探讨的核心问题是关于 Ichigo-llama3.1 在输入处理和性能方面的情况。

在讨论中,有人好奇为何选择拒绝非语音输入,有人认为这可能处于先让语音到语音功能良好运行的阶段。比如,有用户说:“我很好奇,你们为什么选择拒绝非语音输入?似乎如果我们希望构建一个超越‘与这个大型语言模型进行语音对话(基本上对每个人都一样)’的语音到语音模型,那么我们就需要能够向模型提供与用户对话分开的实时输入。你们有其他方法吗?我猜你们可能处于‘让语音到语音功能良好运行,以后再关注其他任何事情’的模式,但我仍然想听听你们的想法。谢谢!”

也有人询问其基于的 Llama 3.1 模型的具体情况。例如,“Which Llama 3.1 model is it based on? I checked the GitHub Repo but it wasn’t obvious what you are using. ” 有用户回复是 Llama 3.1 8B ,并提供了相关链接https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct 。还有人指出可能是语音识别“耗费”了部分性能,比如“ I guess the voice recognition "costs" some performance. ”

关于输入检测方面,有人提出质疑,比如“so it can’t detect when a dog barks when people laugh or when cars are coming? ”,开发者回应目前仅针对人类语音。

讨论中的共识在于大家对 Ichigo-llama3.1 的性能和功能表现出浓厚兴趣,并期待其进一步的优化和完善。

特别有见地的观点如有人提到当前的演示在只有一个 3090 时,用户增多会出现问题,建议在可能的情况下本地运行。

总的来说,这次关于 Ichigo-llama3.1 v0.4 的讨论展现了大家对新技术的关注和期待,也为其未来的发展提供了多样的思考方向。