我想要什么呢?
- CPU推理
- 多语言,而不只是前7种语言。
- 语音克隆,多数情况下我更喜欢语音克隆而非微调。
我查看了近期关于TTS模型的帖子和排行榜。尝试了其中3个模型:
- Piper:
- 这是我体验过的最快的模型,在我简陋的服务器上都能即时运行。
- 支持多语言。
- 没有语音克隆功能,但微调并不难。
- 我不喜欢的一点是它不再维护了。我希望他们能将PyTorch版本更新到2.0,这样我就能在租用的GPU服务器(48GB + GPU)上轻松微调了。目前,我甚至不能在RTX 4090上微调。
- [F5TTS](https://github.com/SWivid/F5 - TTS/):
- 支持多语言和语音克隆。
- 与Piper相比,推理速度很慢。
- [XTTS (coqui - ai - fork)](https://github.com/idiap/coqui - ai - TTS):
- 支持多语言。
- 没有语音克隆功能。
- 与Piper相比,推理速度很慢。
- [Kokoro - TTS](https://huggingface.co/hexgrad/Kokoro - 82M):
- 它在排行榜上排第一,但我都没试过,因为[语言支持](https://huggingface.co/hexgrad/Kokoro - 82M/discussions/30)对我来说不够。
讨论总结
原帖作者寻求满足CPU推理、多语言和语音克隆要求的高效TTS模型,并且分享了自己尝试的几个模型的体验。评论者们基于此进行讨论,有的从个人经验出发表示仍在使用某些模型,如CoquiAI工具包和Piper;有的针对原帖中的模型补充信息,如XTTS的语音克隆解决方案;也有人提出疑问,如关于TTS模型的GUI以及LMS studio使用何种TTS的问题;还有人分享自己使用模型过程中的问题及解决方案,如在Unity中使用Kokoro模型遇到的标记器问题及解决过程。
主要观点
- 👍 目前仍使用CoquiAI工具包
- 支持理由:在没有更好的选择之前会继续使用
- 反对声音:无
- 🔥 认为Piper是同类中最好的
- 正方观点:语音质量在900多种语音包中足够,Kokoro - TTS没有显著提升
- 反方观点:无
- 💡 xTTS - v2有语音克隆功能且在GPU上推理更快
- 解释:其具有语音克隆功能,GPU上TTFB约为172毫秒
- 🤔 Kokoro - TTS在实际意义上推理速度没有更快且语音平淡
- 解释:与Piper对比得出该结论
- 👀 MeloTTS可在CPU上运行
- 解释:推荐给原帖作者尝试
金句与有趣评论
- “😂 说实话,我仍在使用Piper。其语音质量在900多种语音包中是足够的。”
- 亮点:直接表明自己对Piper的使用态度和对其语音质量的认可
- “🤔 我知道你提到它没有克隆功能,但实际上它有。”
- 亮点:纠正原帖关于xtts - v2没有语音克隆功能的观点
- “👀 希望看到具有实时速度且带有情感的产品,但目前Piper是同类中最好的。”
- 亮点:表达对TTS模型的期望并对Piper做出评价
- “😎 Radiant_Dog1937:I’m trying to get Kokoro working in Unity. I have the model with working with the premade token example in their git, but they don’t have straightforward tokenizer to work with.”
- 亮点:分享在Unity中使用Kokoro模型遇到的问题
- “👍 xTTS - v2 have voice cloning with 6 second of voice. Inference is faster on GPU with TTFB of \~172ms.”
- 亮点:详细介绍xTTS - v2的语音克隆功能和GPU上的推理速度
情感分析
总体情感倾向较为中立,主要是在分享信息和交流经验。分歧点较少,可能是因为大家都在根据原帖的需求从不同角度提供信息,没有形成强烈的对立观点。
趋势与预测
- 新兴话题:关于TTS模型的GUI可能会引发后续讨论,因为目前还没有相关的深入探讨。
- 潜在影响:如果这些TTS模型不断优化和发展,可能会对语音合成相关的应用领域产生积极影响,例如语音助手、有声读物制作等。
详细内容:
《探索高效的 TTS 模型:Reddit 热门讨论引发的思考》
在 Reddit 上,一则关于“您的高效 TTS 首选模型是什么?”的帖子引起了广泛关注。该帖子列举了多种 TTS 模型,包括 Piper、F5TTS、XTTS (coqui-ai-fork)和 Kokoro-TTS,并阐述了它们各自的特点,如 Piper 速度快但不再维护,F5TTS 支持多语言和语音克隆但推理速度慢等。此帖获得了众多点赞和大量评论。
讨论的焦点主要集中在各个模型的优劣以及适用场景。有人表示自己仍在使用 CoquiAI 工具包,直到出现更好的选择。有人认为 Piper 不错,其语音质量在包含 900 多种声音的包中已足够好,且最初就是为在树莓派上运行而设计,在 CPU 上速度足够快。也有人分享了在 Unity 中使用 Kokoro 的个人经历,称最终解决了问题,效果不错。
有人提到 XTTS 的一些解决方案具有语音克隆,并提供了相关链接。还有人询问是否有这些模型的良好图形用户界面,以及探讨不同模型在 CPU 和 GPU 上的推理速度等。有人建议可以参考特定的 issue 进行修改,也有人分享了关于 TTS 模型的博客和 cheatsheet 链接。
在这场讨论中,大家的共识是目前还没有一种完美的 TTS 模型能满足所有需求,不同的模型在不同方面各有优劣。特别有见地的观点如认为 Piper 在实际应用中表现出色,但其维护性存在问题。
总的来说,这次关于 TTS 模型的讨论充分展示了其多样性和复杂性,为用户在选择适合自己的模型时提供了更多参考和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!