原贴链接

https://huggingface.co/DavidBrowne17/Muchi。我使用https://github.com/yangdongchao/RSTnet这个库的修改版本对Moshi进行了微调,它在智能方面仍然存在一些问题,但在我看来已经有所改善。使用该库,我们还可以使用比Moshi所基于的helium模型更智能的其他大型语言模型来微调新的Moshi风格的模型。没有什么护城河(技术垄断之类的东西)。编辑:由于已经存在名为Mochi的人工智能,因此重命名为Muchi。

讨论总结

原帖介绍了Muchi这个Moshi的微调版本,评论涉及多个方面。有评论者指出Moshi存在问题,如愚蠢和可能有漏洞;也有对Muchi性能的反馈,如语音和响应时间尚可但响应质量低等;还讨论了模型训练方面,像训练数据来源、计算资源等;同时也有关于模型名称冲突以及改名的相关讨论,整体氛围比较复杂,包含了对模型的好奇、建议、不满等多种情绪。

主要观点

  1. 👍 Moshi存在问题
    • 支持理由:评论者认为Moshi存在愚蠢和可能有漏洞的问题,基础模型Helium不好。
    • 反对声音:无。
  2. 🔥 Muchi性能不佳
    • 正方观点:DRONE_SIC称Muchi响应质量极低,对话体验糟糕。
    • 反方观点:无。
  3. 💡 模型训练相关情况
    • 原帖作者使用合成数据集和A100在colabs训练,40gb的vram已达极限,希望找到云端使用多gpu的廉价方式以基于llama 3训练更好模型。
  4. 💡 模型名称需调整
    • 由于存在名为Mochi的视频生成模型,原帖中的Mochi(后改名为Muchi)会造成混淆,有评论者建议改名。
  5. 💡 对模型改进的期望
    • 评论者harrro对Muchi的音频质量、LLM响应等方面提出改进建议。

金句与有趣评论

  1. “😂 Moshi was a great idea, just dumb and maybe buggy.”
    • 亮点:直接指出Moshi存在的问题,表述简洁。
  2. “🤔 The latency is very good – it answers immediately as if it has preprocessed what you said as you said it instead of waiting for you to finish talking then running inference like open - webui’s whisper - tts combo (but it sometimes cuts you off while you’re still speaking since it seems to aggressively detect pauses in speech).”
    • 亮点:详细描述了Muchi的延迟情况。
  3. “👀 由于已经存在名为Mochi的视频生成模型,我建议改名。”
    • 亮点:提出模型名字冲突的问题并给出建议。

情感分析

总体情感倾向比较复杂。既有对原模型Moshi的负面评价,也有对新模型Muchi好奇和感兴趣的正面态度。主要分歧点在于Muchi的性能方面,部分人觉得响应质量低等问题严重,而原帖作者可能觉得它是有所改进的。原因在于不同人对模型的期望和使用场景不同。

趋势与预测

  • 新兴话题:基于llama 3构建更好模型的可能性。
  • 潜在影响:如果能基于llama 3构建出更好的模型,可能会推动相关模型在智能提升等方面的发展。

详细内容:

标题:关于新推出的 finetuned 版本 Muchi 的热门讨论

在 Reddit 上,一则关于新推出的 finetuned 版本 Muchi 的帖子引发了众多关注。原帖作者介绍了对 Moshi 进行 finetune 的成果,并提供了相关链接(https://huggingface.co/DavidBrowne17/Muchi),还说明了在改进过程中使用的修改版 repo 等情况。此帖获得了大量的点赞和评论,引发了关于 Muchi 性能、改进方向等方面的热烈讨论。

讨论的焦点主要集中在以下几个方面: 有人认为 Moshi 是个好想法,但存在一些问题,比如不够聪明或者可能有漏洞。Sesame 似乎解决了部分问题,但后来开源的部分不如预期。 有人觉得如果 8b 大小的 LLM 是目前能接受的最大尺寸而不影响速度,那么采用专家混合模式并仅激活 8b 参数或许能提高智能程度。也有人认为 Moshi 的问题源于基础模型 Helium 不够好,如果基于 Llama3 构建会好很多。 有人提出希望能上传样例对话的 MP3 以便了解延迟、音频质量和 LLM 响应情况。实际体验中,延迟表现很好但有时会在说话时截断,音频质量较低,LLM 回答像欢快的女性,简短且倾向以提问结束。 有人建议改进方面包括能够使用更大的 LLM 模型或自定义“系统提示”,提升音频质量等。 有人认为应改名以避免与已有的视频生成模型 Mochi 混淆,作者已将其改名为 Muchi。 有人询问训练数据的细节和训练过程中的有趣发现,以及所需的计算资源。有人分享了自己使用合成数据集和 A100 在 colabs 中训练的经历,还提到如果能找到便宜的使用多个 GPU 的云服务,有望基于 llama 3 训练更好的模型。有人建议可以使用 RunPod 租用不同的 GPU。 有人在 M1 mac 上尝试运行时遇到错误,作者表示会发布单独的 mlx 模型。 有人探讨如何将其用于像 qwen2 audio 之类的东西,也有人在尝试用法语进行 finetune 并交流相关经验。

在讨论中,大家的共识在于需要对 Muchi 进行进一步的优化和改进,以提升其性能和实用性。其中一些独特的观点,如通过混合专家模式提高智能程度,丰富了对 Muchi 未来发展方向的思考。

总之,关于 Muchi 的讨论展示了大家对其的期待和改进的建议,也为其后续的发展提供了多样的思路。