我得先说一下,我在本地运行AI模型方面算是新手,但我之前摆弄过Ollama+Open WebUI,也能在我的RTX 4080上通过WSL2运行一些模型,结果让我印象挺深刻的。话虽如此,我现在正在找一个好的本地TTS模型,说实话我对找到的结果很失望。大多数项目似乎几个月都没更新了,或者干脆就停止开发了。据我所读,普遍的共识似乎是XTTS - v2至今仍然是总体上最好的模型,它来自一家已经关闭的初创公司(https://coqui.ai/)。我想不管怎样我还是试一下,我通过[这个简单的便携版本](https://github.com/daswer123/xtts - webui)让它运行起来了,但说实话我对得到的结果很失望,非常不稳定,听起来也不自然,即使对它不同的参数和语音做了很多调整也不行。跟我从ElevenLabs得到的结果差远了,ElevenLabs的结果很容易让人以为是真人在说话,但不幸的是,那个服务对我来说太贵了。还有其他一些流行的建议,比如Fish Speech或者F5 - TTS,但因为我需要这个模型说葡萄牙语,这就大大限制了我的选择。现在我觉得我在浪费时间,感觉我本地能运行的没有一个能比得上ElevenLabs的,不过就像我说的,我是新手,也许我遗漏了一些明显的东西。不管怎样,希望能得到大家的建议!
讨论总结
原帖作者想找在质量和一致性上能与ElevenLabs相匹配的本地TTS模型,但尝试后感到失望,认为找不到能比得上的本地模型。评论者们纷纷根据自己的经验推荐不同的本地TTS模型,如Tortoise TTS + RVC、kokoro、F5 - TTS、Fish Speech等,同时还提到了各个模型的特点,像Kokoro在CPU上运行的情况、F5 - TTS的葡萄牙语版本获取方式、Fish Speech运行的音频要求等,也有部分评论者表示目前确实没有能与ElevenLabs相媲美的本地模型。整体氛围比较积极,大家都在真诚分享自己的经验和看法。
主要观点
- 👍 Tortoise TTS + RVC是目前能得到的最好选择(虽然速度慢)
- 支持理由:没有更好的本地TTS模型可选。
- 反对声音:速度慢是个明显的缺点。
- 🔥 Kokoro是较好的本地TTS模型
- 正方观点:在CPU上能实时运行且声音像人类、体积小、在合适硬件上速度快。
- 反方观点:目前v0.19版本仅支持英语,不确定是否支持克隆声音。
- 💡 原帖作者在本地运行AI模型方面经验较少,尝试多种本地TTS模型均未达到ElevenLabs的效果
- 解释:原帖作者自己表明在这方面是新手,并且尝试过XTTS - v2等模型后不满意。
- 👍 F5 - TTS有适用于葡萄牙语(巴西)的版本并且可以获取使用
- 支持理由:给出了明确的获取和使用的操作步骤。
- 反对声音:无。
- 💡 没有本地TTS模型能与ElevenLabs相媲美
- 解释:有评论者根据自己的经验和对行业的理解得出这一结论。
金句与有趣评论
- “😂 Tortoise TTS + RVC是最好你能得到的(虽然慢),但正如你所指出的,要获得最佳质量并不容易。”
- 亮点:既推荐了模型,又坦诚地指出达到最佳质量的难度。
- “🤔 Enough - Meringue4745: Try kokoro”
- 亮点:简洁地给出推荐。
- “👀 glowcialist: You can only inject horniness or Englishness :(”
- 亮点:幽默地回应kokoro能否注入情感的问题。
- “😉 For long time i survived with piper, because elevenlabs was too expensive, and another api was good in price but sounded robotic.”
- 亮点:说明自己使用Piper的原因,体现价格因素对模型选择的影响。
- “🤨 Are you asking? Then there’s nothing that even comes close to ElevenLabs.”
- 亮点:明确表达没有能与ElevenLabs相媲美的本地模型这一观点。
情感分析
总体情感倾向是比较积极的,大家都在积极分享自己的经验和建议。主要分歧点在于是否有本地TTS模型能与ElevenLabs相匹配,部分人认为有较好的本地替代模型,如Kokoro、Tortoise TTS + RVC等,而另一部分人则认为目前没有能比得上的。可能的原因是大家对不同模型的使用体验和要求不同,以及对本地模型发展程度的判断标准不一致。
趋势与预测
- 新兴话题:Kokoro模型是否会添加对葡萄牙语的支持以及其后续发展。
- 潜在影响:如果能找到在质量和一致性上可与ElevenLabs相媲美的本地TTS模型,可能会促使更多人选择本地模型,降低对ElevenLabs等付费服务的依赖,也可能会推动本地TTS模型相关技术的进一步发展。
详细内容:
标题:探索本地 TTS 模型,能否媲美 ElevenLabs?
在 Reddit 上,一篇关于寻找优质且稳定的本地 TTS 模型的帖子引发了热烈讨论。该帖子作者表示自己虽是运行本地 AI 模型的新手,但之前曾在 RTX 4080 上通过 WSL2 运行过一些模型并取得不错效果。此次寻找本地 TTS 模型时却不太顺利,尝试了 XTTS-v2 但对结果失望,且因需要葡萄牙语模型,选择更加受限。此帖获得了众多关注,评论数众多,大家纷纷分享自己的观点和经验。
讨论的焦点主要集中在各种推荐的模型上。有人认为 Tortoise TTS + RVC 是能得到的较好选择,但速度较慢,且大部分工作在于数据集创建阶段。也有人推荐 Kokoro,认为其语音效果不错,有人测试后对其表现印象深刻,期待其支持更多语言。还有人提到 F5-TTS 有葡萄牙语版本,Fish Speech 1.5 也支持葡萄牙语,但需要至少一分钟的参考音频。
有用户分享个人经历,比如有人表示自己一直使用 Piper,因为 ElevenLabs 价格昂贵,而昨天安装了 Kokoro,认为它在 CPU 上运行效果较好,虽只支持英语但希望后续能支持更多语言。还有人讲述自己安装 Kokoro 时的过程和心得。
也有一些有趣或引发思考的观点,比如有人说“只能注入性感或英语感”,有人笑称“能听到总统的演讲以性感的近耳语方式呈现”。
在众多观点中,有人认为目前本地可运行的模型还无法与 ElevenLabs 相媲美,也有人提到一些模型已停止开发。同时,大家对于不同模型的优缺点和适用场景进行了深入探讨。
总的来说,关于本地 TTS 模型的讨论丰富多样,大家都在努力寻找最适合自己需求的解决方案。
感谢您的耐心阅读!来选个表情,或者留个评论吧!