原贴链接

今天，我们很兴奋地宣布Zonos的beta版本发布，这是一个具有高保真语音克隆功能的高表现力TTS模型。我们在Apache 2.0许可下发布了Transformer和SSM - 混合模型。Zonos在质量和表现力方面与领先的TTS供应商相比表现良好。Zonos能灵活控制语速、情感、语调以及音频质量，还能即时进行无限的高质量语音克隆。Zonos原生以44Khz生成语音。我们的混合模型是第一个开源的SSM混合音频模型。技术报告即将发布。目前Zonos是beta预览版。虽然表现力很强，但Zonos在生成时有时不太可靠，会出现有趣的错误。我们很高兴在未来几个月继续推动对话代理性能、可靠性和效率的前沿发展。（+与专有和开源SOTA的模型比较）详情：[https://www.zyphra.com/post/beta - release - of - zonos - v0 - 1](https://www.zyphra.com/post/beta - release - of - zonos - v0 - 1) 在Huggingface获取权重：[http://huggingface.co/Zyphra/Zonos - v0.1 - hybrid](http://huggingface.co/Zyphra/Zonos - v0.1 - hybrid) 和 [http://huggingface.co/Zyphra/Zonos - v0.1 - transformer](http://huggingface.co/Zyphra/Zonos - v0.1 - transformer) 下载推理代码：http://github.com/Zyphra/Zonos

讨论总结

这个讨论围绕Zonos - v0.1 beta这个TTS模型展开。部分用户对模型表示认可，但更多的是提出各种疑问、指出存在的问题，如模型在不同硬件上的运行情况、语音克隆的效果、音频质量不稳定等，整体氛围理性且务实，大家主要是从技术和实际应用的角度来探讨这个模型。

主要观点

👍 对Zonos - v0.1 beta表示认可
- 支持理由：认为模型听起来不错、整体很棒等。
- 反对声音：无。
🔥 模型在4090上以2倍实时速度运行
- 正方观点：这是模型性能的体现。
- 反方观点：有用户好奇3090上的性能，推测应和4090差不多。
💡 Zonos质量与其他品牌相当，但存在一些问题
- 解释：与Cartesia和ElevenLabs质量相当，但存在生成内容结尾截断、音频质量不稳定等问题。
💡 8GB VRAM对于运行模型可能足够
- 解释：1.6B参数的模型在fp16精度下加上激活空间，8GB VRAM应足够，否则会发布量化版本。
💡 模型存在一些瑕疵但整体不错
- 解释：存在如清嗓子或发出奇怪声音的瑕疵，但整体工作出色，声音很棒。

金句与有趣评论

“😂 They’ll train the Portuguese version exclusively on 90s sítio do pica - pau amarelo and the novela O Clone. It won’t be good and it will sound like 90s anime dub in Brazil, but it will be in Portuguese”
- 亮点：以幽默的方式设想葡萄牙语版本的训练素材及效果。
“🤔 I could see this being great and perhaps the default for non - realtime implementations.”
- 亮点：对模型在非实时应用中的潜力有所期待。
“👀 2x factor on 4090 seems very resource intensive.”
- 亮点：指出模型在4090上运行资源占用高的问题。

情感分析

总体情感倾向比较中性。一方面有用户对模型表示认可、觉得模型很酷很令人兴奋；另一方面也有不少用户指出模型存在各种问题，如在不同硬件上的运行问题、语音克隆效果不好、音频质量不稳定等。主要分歧点在于对模型的评价，原因是不同用户从不同的使用场景、硬件条件和需求出发看待这个模型。

趋势与预测

新兴话题：可能会有更多关于模型优化（如量化后的音频质量提升）以及对更多平台支持（如Mac电脑）的讨论。
潜在影响：如果模型的问题得到解决，可能会对语音合成领域的开源项目发展产生推动作用，也可能影响到相关的应用场景（如智能家居、游戏等）中的语音应用发展。

详细内容：

《Zonos-v0.1 beta 引发 Reddit 热议》

Reddit 上近日出现了一个关于 Zonos-v0.1 beta 的热门讨论帖，该帖主要介绍了这款由 Zyphra 推出的具有高保真语音克隆功能的高表现力文本转语音（TTS）模型。帖子获得了众多关注，评论数众多。主要讨论方向集中在模型的性能、特点、应用场景以及存在的问题等方面。

讨论焦点与观点分析如下：

关于模型性能，有人认为其听起来相当不错，好奇其 VRAM 使用率和处理时间。例如，有人指出 1.6B 的参数规模比 Kokoro 的 82m 大很多，还提到其在某些方面的表现可能使其成为非实时应用的默认选择。
有用户分享在不同硬件上的运行速度和效果，如在 4090 上能达到 2 倍实时速度。但也有用户在使用过程中遇到问题，如生成失败、报错等。
对于模型的特点，有人认为它在语音克隆方面有优势，也有人提到存在一些瑕疵，如音频质量不稳定、发音不准确等。
在应用场景方面，用户探讨了能否将其与 Home Assistant 或 OpenWebUi 连接，以及是否能支持多语言等。

总之，Reddit 上关于 Zonos-v0.1 beta 的讨论丰富多样，既有对其优点的肯定，也指出了存在的不足。大家都期待开发者能不断优化完善，使其性能更出色，应用更广泛。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#