大家好,我是 Hugging Face 的 VB,专注于开源音频和设备上机器学习的 GPU 穷人!🤗
非常高兴向大家介绍 Parler TTS v1 🔉 - 885M(Mini)和 2.2B(大型)- 完全开源的文本转语音模型!🤙
关于它的一些有趣之处:
在 45,000 小时的开放语音数据上进行训练(数据集也已发布)
由于 torch 编译和静态 KV 缓存,生成速度提高了 4 倍(相比之前的 v0.1 版本)
Mini 模型在更大的文本编码器上训练,大型模型在更大的文本和解码器上训练
还支持 SDPA 和 Flash Attention 2,以进一步提高速度
内置流式传输,我们提供了一个专为首次音频时间优化的专用流类
更好的发音人一致性,有十几个发音人可供选择,或者创建一个发音人描述提示并使用它
对某个发音人不满意?您可以在自己的数据集上微调模型(只需几个小时即可)
Apache 2.0 许可的代码库、权重和数据集!🤗
迫不及待想看看大家会用这个构建什么!🫡
快速链接:
模型检查点:https://huggingface.co/collections/parler-tts/parler-tts-fully-open-source-high-quality-tts-66164ad285ba03e8ffde214c
Space:https://huggingface.co/spaces/parler-tts/parler_tts
GitHub 仓库:https://github.com/huggingface/parler-tts
讨论总结
Hugging Face发布的Parler TTS v1模型在Reddit上引起了广泛讨论,主要围绕其开源性质、性能提升、兼容性、多语言支持、音频质量、实时性、语音风格调整、情感表达等方面。用户对该模型的积极评价主要集中在其高质量的音频输出、快速的生成速度和灵活的语音风格调整功能。同时,也有用户提出了一些技术问题,如兼容性问题、长文本处理问题和语音性别化问题,并期待未来的改进和多语言支持。
主要观点
- 👍 开源性质受到赞赏
- 支持理由:开源模型有助于社区的广泛应用和进一步开发。
- 反对声音:暂无。
- 🔥 高性能和快速生成速度
- 正方观点:模型支持torch compile和static KV cache,使得生成速度较快。
- 反方观点:在处理较长文本时可能存在跳过中间部分的问题。
- 💡 语音风格调整功能
- 解释:用户可以通过提示调整语音风格,如愤怒、喊叫或不尊重的语气。
- 👍 音频质量受到赞赏
- 支持理由:即使是小型模型也能产生非常真实的声音。
- 反对声音:暂无。
- 🔥 兼容性和多语言支持
- 正方观点:模型兼容Apple silicon,并支持通过设置"mps"作为设备来实现兼容。
- 反方观点:目前仅支持英语,用户期待未来版本能支持更多语言。
金句与有趣评论
- “😂 Is it compatible with Apple silicon? Yes! Just pass "mps" as the device.”
- 亮点:简洁明了的回答解决了用户的兼容性问题。
- “🤔 Have you tried to export to ONNX? ONNX + TensorRT + Triton Inference Server is my favorite "hack" to provide performance at scale.”
- 亮点:提供了提高模型性能的实用建议。
- “👀 The quality is impressive with the large version, and the built in audio streaming and modifying output via prompt is very interesting.”
- 亮点:用户对模型的音频质量和功能表示赞赏。
情感分析
讨论的总体情感倾向积极,用户对Parler TTS v1模型的发布表示赞赏和期待。主要分歧点在于模型的兼容性、长文本处理和语音性别化问题。用户希望未来版本能解决这些问题,并增加多语言支持。
趋势与预测
- 新兴话题:多语言支持和非二元性别声音的引入。
- 潜在影响:该模型的开源性质和高性能可能推动文本转语音技术的广泛应用,特别是在需要高质量音频输出的场景中。
感谢您的耐心阅读!来选个表情,或者留个评论吧!