原贴链接

大家好,我是 Hugging Face 的 VB,专注于开源音频和设备上机器学习的 GPU 穷人!🤗

非常高兴向大家介绍 Parler TTS v1 🔉 - 885M(Mini)和 2.2B(大型)- 完全开源的文本转语音模型!🤙

关于它的一些有趣之处:

  1. 在 45,000 小时的开放语音数据上进行训练(数据集也已发布)

  2. 由于 torch 编译和静态 KV 缓存,生成速度提高了 4 倍(相比之前的 v0.1 版本)

  3. Mini 模型在更大的文本编码器上训练,大型模型在更大的文本和解码器上训练

  4. 还支持 SDPA 和 Flash Attention 2,以进一步提高速度

  5. 内置流式传输,我们提供了一个专为首次音频时间优化的专用流类

  6. 更好的发音人一致性,有十几个发音人可供选择,或者创建一个发音人描述提示并使用它

  7. 对某个发音人不满意?您可以在自己的数据集上微调模型(只需几个小时即可)

Apache 2.0 许可的代码库、权重和数据集!🤗

迫不及待想看看大家会用这个构建什么!🫡

快速链接:

模型检查点:https://huggingface.co/collections/parler-tts/parler-tts-fully-open-source-high-quality-tts-66164ad285ba03e8ffde214c

Space:https://huggingface.co/spaces/parler-tts/parler_tts

GitHub 仓库:https://github.com/huggingface/parler-tts

讨论总结

Hugging Face发布的Parler TTS v1模型在Reddit上引起了广泛讨论,主要围绕其开源性质、性能提升、兼容性、多语言支持、音频质量、实时性、语音风格调整、情感表达等方面。用户对该模型的积极评价主要集中在其高质量的音频输出、快速的生成速度和灵活的语音风格调整功能。同时,也有用户提出了一些技术问题,如兼容性问题、长文本处理问题和语音性别化问题,并期待未来的改进和多语言支持。

主要观点

  1. 👍 开源性质受到赞赏
    • 支持理由:开源模型有助于社区的广泛应用和进一步开发。
    • 反对声音:暂无。
  2. 🔥 高性能和快速生成速度
    • 正方观点:模型支持torch compile和static KV cache,使得生成速度较快。
    • 反方观点:在处理较长文本时可能存在跳过中间部分的问题。
  3. 💡 语音风格调整功能
    • 解释:用户可以通过提示调整语音风格,如愤怒、喊叫或不尊重的语气。
  4. 👍 音频质量受到赞赏
    • 支持理由:即使是小型模型也能产生非常真实的声音。
    • 反对声音:暂无。
  5. 🔥 兼容性和多语言支持
    • 正方观点:模型兼容Apple silicon,并支持通过设置"mps"作为设备来实现兼容。
    • 反方观点:目前仅支持英语,用户期待未来版本能支持更多语言。

金句与有趣评论

  1. “😂 Is it compatible with Apple silicon? Yes! Just pass "mps" as the device.”
    • 亮点:简洁明了的回答解决了用户的兼容性问题。
  2. “🤔 Have you tried to export to ONNX? ONNX + TensorRT + Triton Inference Server is my favorite "hack" to provide performance at scale.”
    • 亮点:提供了提高模型性能的实用建议。
  3. “👀 The quality is impressive with the large version, and the built in audio streaming and modifying output via prompt is very interesting.”
    • 亮点:用户对模型的音频质量和功能表示赞赏。

情感分析

讨论的总体情感倾向积极,用户对Parler TTS v1模型的发布表示赞赏和期待。主要分歧点在于模型的兼容性、长文本处理和语音性别化问题。用户希望未来版本能解决这些问题,并增加多语言支持。

趋势与预测

  • 新兴话题:多语言支持和非二元性别声音的引入。
  • 潜在影响:该模型的开源性质和高性能可能推动文本转语音技术的广泛应用,特别是在需要高质量音频输出的场景中。