今天,我们很兴奋地宣布Zonos的beta版本发布,这是一个具有高保真语音克隆功能的高表现力TTS模型。我们在Apache 2.0许可下发布了Transformer和SSM - 混合模型。Zonos在质量和表现力方面与领先的TTS供应商相比表现良好。Zonos能灵活控制语速、情感、语调以及音频质量,还能即时进行无限的高质量语音克隆。Zonos原生以44Khz生成语音。我们的混合模型是第一个开源的SSM混合音频模型。技术报告即将发布。目前Zonos是beta预览版。虽然表现力很强,但Zonos在生成时有时不太可靠,会出现有趣的错误。我们很高兴在未来几个月继续推动对话代理性能、可靠性和效率的前沿发展。(+与专有和开源SOTA的模型比较)详情:[https://www.zyphra.com/post/beta - release - of - zonos - v0 - 1](https://www.zyphra.com/post/beta - release - of - zonos - v0 - 1) 在Huggingface获取权重:[http://huggingface.co/Zyphra/Zonos - v0.1 - hybrid](http://huggingface.co/Zyphra/Zonos - v0.1 - hybrid) 和 [http://huggingface.co/Zyphra/Zonos - v0.1 - transformer](http://huggingface.co/Zyphra/Zonos - v0.1 - transformer) 下载推理代码:http://github.com/Zyphra/Zonos
讨论总结
这个讨论围绕Zonos - v0.1 beta这个TTS模型展开。部分用户对模型表示认可,但更多的是提出各种疑问、指出存在的问题,如模型在不同硬件上的运行情况、语音克隆的效果、音频质量不稳定等,整体氛围理性且务实,大家主要是从技术和实际应用的角度来探讨这个模型。
主要观点
- 👍 对Zonos - v0.1 beta表示认可
- 支持理由:认为模型听起来不错、整体很棒等。
- 反对声音:无。
- 🔥 模型在4090上以2倍实时速度运行
- 正方观点:这是模型性能的体现。
- 反方观点:有用户好奇3090上的性能,推测应和4090差不多。
- 💡 Zonos质量与其他品牌相当,但存在一些问题
- 解释:与Cartesia和ElevenLabs质量相当,但存在生成内容结尾截断、音频质量不稳定等问题。
- 💡 8GB VRAM对于运行模型可能足够
- 解释:1.6B参数的模型在fp16精度下加上激活空间,8GB VRAM应足够,否则会发布量化版本。
- 💡 模型存在一些瑕疵但整体不错
- 解释:存在如清嗓子或发出奇怪声音的瑕疵,但整体工作出色,声音很棒。
金句与有趣评论
- “😂 They’ll train the Portuguese version exclusively on 90s sítio do pica - pau amarelo and the novela O Clone. It won’t be good and it will sound like 90s anime dub in Brazil, but it will be in Portuguese”
- 亮点:以幽默的方式设想葡萄牙语版本的训练素材及效果。
- “🤔 I could see this being great and perhaps the default for non - realtime implementations.”
- 亮点:对模型在非实时应用中的潜力有所期待。
- “👀 2x factor on 4090 seems very resource intensive.”
- 亮点:指出模型在4090上运行资源占用高的问题。
情感分析
总体情感倾向比较中性。一方面有用户对模型表示认可、觉得模型很酷很令人兴奋;另一方面也有不少用户指出模型存在各种问题,如在不同硬件上的运行问题、语音克隆效果不好、音频质量不稳定等。主要分歧点在于对模型的评价,原因是不同用户从不同的使用场景、硬件条件和需求出发看待这个模型。
趋势与预测
- 新兴话题:可能会有更多关于模型优化(如量化后的音频质量提升)以及对更多平台支持(如Mac电脑)的讨论。
- 潜在影响:如果模型的问题得到解决,可能会对语音合成领域的开源项目发展产生推动作用,也可能影响到相关的应用场景(如智能家居、游戏等)中的语音应用发展。
详细内容:
《Zonos-v0.1 beta 引发 Reddit 热议》
Reddit 上近日出现了一个关于 Zonos-v0.1 beta 的热门讨论帖,该帖主要介绍了这款由 Zyphra 推出的具有高保真语音克隆功能的高表现力文本转语音(TTS)模型。帖子获得了众多关注,评论数众多。主要讨论方向集中在模型的性能、特点、应用场景以及存在的问题等方面。
讨论焦点与观点分析如下:
- 关于模型性能,有人认为其听起来相当不错,好奇其 VRAM 使用率和处理时间。例如,有人指出 1.6B 的参数规模比 Kokoro 的 82m 大很多,还提到其在某些方面的表现可能使其成为非实时应用的默认选择。
- 有用户分享在不同硬件上的运行速度和效果,如在 4090 上能达到 2 倍实时速度。但也有用户在使用过程中遇到问题,如生成失败、报错等。
- 对于模型的特点,有人认为它在语音克隆方面有优势,也有人提到存在一些瑕疵,如音频质量不稳定、发音不准确等。
- 在应用场景方面,用户探讨了能否将其与 Home Assistant 或 OpenWebUi 连接,以及是否能支持多语言等。
总之,Reddit 上关于 Zonos-v0.1 beta 的讨论丰富多样,既有对其优点的肯定,也指出了存在的不足。大家都期待开发者能不断优化完善,使其性能更出色,应用更广泛。
感谢您的耐心阅读!来选个表情,或者留个评论吧!