原贴链接

继语言模型、图像理解、视频理解、图像生成、视频生成等模型之后，如今，智谱的多模态大模型家族新增了一名成员——GLM - 4 - Voice（端到端语音模型）。这一成果使大模型具备完整的感知系统，实现人机之间自然流畅的交互。GLM - 4 - Voice模型能够直接理解和生成中英文语音，并且可以根据用户指令灵活调整语音的情感、语调、速度和方言。它还具有更低的延迟，支持实时中断，进一步提升交互体验。代码库：https://github.com/THUDM/GLM - 4 - Voice

讨论总结

该讨论围绕智谱AI的GLM - 4 - Voice模型展开。大家对这个新的端到端语音大型语言模型有不同关注点，有人认可模型优秀并期待试用，也有人在使用过程中遇到如安装问题、VRAM需求过大等困扰，同时还有对模型功能提升、文档语言、演示需求等方面的探讨。

主要观点

👍 THUDM制造的模型很优秀
- 支持理由：评论者认为其制造的模型令人惊叹。
- 反对声音：无。
🔥 这类项目很多不发布训练或微调脚本和数据是个问题
- 正方观点：很多项目不发布相关脚本和数据，不利于使用者深入研究。
- 反方观点：有观点认为这只对不能独立“思考”的TTS引擎适用。
💡 Meta的SpiritLM端到端语音生成能力差，GLM - 4 - Voice看起来更完整
- 解释：通过对比指出GLM - 4 - Voice在端到端语音生成方面更有优势。
💡 传统的SST - LLM - TTS管道在大多数情况下足够使用
- 支持理由：对于大多数用例来说，经过调优后的管道能满足模拟人类对话需求。
- 反对声音：有观点指出这种管道缺失语调和情感的细微差别。
💡 模型应具备多语言功能
- 支持理由：多语言功能对翻译很重要，仅有中英文不够。
- 反对声音：无。

金句与有趣评论

“😂 THUDM truly makes amazing models.”
- 亮点：简洁地表达对模型制造方的认可。
“🤔 My only issue with these projects is how so many of them don’t release any training or fine tuning scripts, and definitely don’t release any of their training data.”
- 亮点：指出项目存在的普遍问题。
“👀 I hope this can be finetuned easily too, it should be perfect for engaging roleplay and just overall getting into more natural discussions with a model that’s a touch embodied.”
- 亮点：对模型提出了进一步优化的期待及应用场景的设想。
“😂 I went to attempt to install it, and realized its going to cost me 36 GB of VRAM to run. What the hell, lol.”
- 亮点：生动地表达出对模型运行所需VRAM数量之大的惊讶。
“🤔 Am I right to assume that a SST -> LLM -> TTS pipeline that’s been tuned for minimal latency would be more than enough for most use cases - and these speech models are really mostly used for trying to simulate human convos?”
- 亮点：提出对传统管道在大多数用例中适用性的思考。

情感分析

总体情感倾向是积极的，大多数评论者认可GLM - 4 - Voice模型的功能和潜力。主要分歧点在于传统的SST - LLM - TTS管道与新语音模型的优劣对比，以及项目不发布训练脚本和数据是否合理。可能的原因是不同评论者的使用需求和技术认知不同。

趋势与预测

新兴话题：模型的多语言功能拓展、与llmacpp的关联可能会引发后续讨论。
潜在影响：如果模型不断优化改进，可能会对AI语音技术在角色扮演、自然对话等场景的应用产生积极推动作用，同时也可能促使其他类似项目更加重视训练脚本和数据的公开。

详细内容：

标题：Zhipu AI 的新开源端到端语音大语言模型 GLM-4-Voice 在 Reddit 上引发热议

近日，Reddit 上关于 Zhipu AI 新推出的开源端到端语音大语言模型 GLM-4-Voice 的讨论引起了广泛关注。该帖子获得了众多点赞和大量评论。

帖子主要介绍了 GLM-4-Voice 这一模型，称其使大模型拥有了完整的感官系统，能够实现机器与人之间自然流畅的交互。它能直接理解和生成中英文语音，并可根据用户指令灵活调整语音的情感、语调、速度和方言，还具有低延迟、支持实时中断等优点。同时还提供了代码仓库链接：https://github.com/THUDM/GLM-4-Voice

讨论焦点与观点主要包括以下几个方面：有人称赞 THUDM 总能做出令人惊叹的模型，并期待尝试这个新模型。但也有人提出疑问，比如如何使用特定的声音作为输出。还有人认为很多此类项目都未发布任何训练或微调脚本以及训练数据，这是个问题。有人将其与 Meta 的 SpiritLM 进行比较，觉得这个新模型更加完善。有人在尝试后表示音频输出质量很高，但受到了很强的审查。有人希望能看到更多英语演示和在线演示，也有人指出 README 文档只有中文，不过随后有人提供了英文版本的链接。有人质疑只支持两种语言，认为这对翻译很重要。有人表示这些模型可能是研究小组为获取资助而发布的。有人在安装时遇到了错误，无法安装需求。有人探讨了此类语音模型在不同场景下的应用和优势。

例如，有用户分享道：“我尝试对 SpiritLM 基于 Instruct 数据集进行微调，它能在文本提示下完成指令，但这个新模型似乎是一个更完整的项目。”还有用户表示：“我在安装需求时一直报错，解决了几个，但现在被难住了，好像某个文件有拼写错误但又找不到。”

对于语音模型的看法存在争议。有人认为像 STT -> LLM -> TTS 这样的管道对于大多数用例已经足够，而有人认为其完全错过了语气和情感的细微差别，像 GPT 高级语音模式能更好地回应用户的语气。

总的来说，Reddit 上关于 Zhipu AI 的 GLM-4-Voice 模型的讨论丰富多样，既有人对其充满期待，也有人提出了各种问题和担忧。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#