原贴链接

我得先说一下，我在本地运行AI模型方面算是新手，但我之前摆弄过Ollama+Open WebUI，也能在我的RTX 4080上通过WSL2运行一些模型，结果让我印象挺深刻的。话虽如此，我现在正在找一个好的本地TTS模型，说实话我对找到的结果很失望。大多数项目似乎几个月都没更新了，或者干脆就停止开发了。据我所读，普遍的共识似乎是XTTS - v2至今仍然是总体上最好的模型，它来自一家已经关闭的初创公司（https://coqui.ai/）。我想不管怎样我还是试一下，我通过[这个简单的便携版本](https://github.com/daswer123/xtts - webui)让它运行起来了，但说实话我对得到的结果很失望，非常不稳定，听起来也不自然，即使对它不同的参数和语音做了很多调整也不行。跟我从ElevenLabs得到的结果差远了，ElevenLabs的结果很容易让人以为是真人在说话，但不幸的是，那个服务对我来说太贵了。还有其他一些流行的建议，比如Fish Speech或者F5 - TTS，但因为我需要这个模型说葡萄牙语，这就大大限制了我的选择。现在我觉得我在浪费时间，感觉我本地能运行的没有一个能比得上ElevenLabs的，不过就像我说的，我是新手，也许我遗漏了一些明显的东西。不管怎样，希望能得到大家的建议！

讨论总结

原帖作者想找在质量和一致性上能与ElevenLabs相匹配的本地TTS模型，但尝试后感到失望，认为找不到能比得上的本地模型。评论者们纷纷根据自己的经验推荐不同的本地TTS模型，如Tortoise TTS + RVC、kokoro、F5 - TTS、Fish Speech等，同时还提到了各个模型的特点，像Kokoro在CPU上运行的情况、F5 - TTS的葡萄牙语版本获取方式、Fish Speech运行的音频要求等，也有部分评论者表示目前确实没有能与ElevenLabs相媲美的本地模型。整体氛围比较积极，大家都在真诚分享自己的经验和看法。

主要观点

👍 Tortoise TTS + RVC是目前能得到的最好选择（虽然速度慢）
- 支持理由：没有更好的本地TTS模型可选。
- 反对声音：速度慢是个明显的缺点。
🔥 Kokoro是较好的本地TTS模型
- 正方观点：在CPU上能实时运行且声音像人类、体积小、在合适硬件上速度快。
- 反方观点：目前v0.19版本仅支持英语，不确定是否支持克隆声音。
💡 原帖作者在本地运行AI模型方面经验较少，尝试多种本地TTS模型均未达到ElevenLabs的效果
- 解释：原帖作者自己表明在这方面是新手，并且尝试过XTTS - v2等模型后不满意。
👍 F5 - TTS有适用于葡萄牙语（巴西）的版本并且可以获取使用
- 支持理由：给出了明确的获取和使用的操作步骤。
- 反对声音：无。
💡 没有本地TTS模型能与ElevenLabs相媲美
- 解释：有评论者根据自己的经验和对行业的理解得出这一结论。

金句与有趣评论

“😂 Tortoise TTS + RVC是最好你能得到的（虽然慢），但正如你所指出的，要获得最佳质量并不容易。”
- 亮点：既推荐了模型，又坦诚地指出达到最佳质量的难度。
“🤔 Enough - Meringue4745: Try kokoro”
- 亮点：简洁地给出推荐。
“👀 glowcialist: You can only inject horniness or Englishness :(”
- 亮点：幽默地回应kokoro能否注入情感的问题。
“😉 For long time i survived with piper, because elevenlabs was too expensive, and another api was good in price but sounded robotic.”
- 亮点：说明自己使用Piper的原因，体现价格因素对模型选择的影响。
“🤨 Are you asking? Then there’s nothing that even comes close to ElevenLabs.”
- 亮点：明确表达没有能与ElevenLabs相媲美的本地模型这一观点。

情感分析

总体情感倾向是比较积极的，大家都在积极分享自己的经验和建议。主要分歧点在于是否有本地TTS模型能与ElevenLabs相匹配，部分人认为有较好的本地替代模型，如Kokoro、Tortoise TTS + RVC等，而另一部分人则认为目前没有能比得上的。可能的原因是大家对不同模型的使用体验和要求不同，以及对本地模型发展程度的判断标准不一致。

趋势与预测

新兴话题：Kokoro模型是否会添加对葡萄牙语的支持以及其后续发展。
潜在影响：如果能找到在质量和一致性上可与ElevenLabs相媲美的本地TTS模型，可能会促使更多人选择本地模型，降低对ElevenLabs等付费服务的依赖，也可能会推动本地TTS模型相关技术的进一步发展。

详细内容：

标题：探索本地 TTS 模型，能否媲美 ElevenLabs？

在 Reddit 上，一篇关于寻找优质且稳定的本地 TTS 模型的帖子引发了热烈讨论。该帖子作者表示自己虽是运行本地 AI 模型的新手，但之前曾在 RTX 4080 上通过 WSL2 运行过一些模型并取得不错效果。此次寻找本地 TTS 模型时却不太顺利，尝试了 XTTS-v2 但对结果失望，且因需要葡萄牙语模型，选择更加受限。此帖获得了众多关注，评论数众多，大家纷纷分享自己的观点和经验。

讨论的焦点主要集中在各种推荐的模型上。有人认为 Tortoise TTS + RVC 是能得到的较好选择，但速度较慢，且大部分工作在于数据集创建阶段。也有人推荐 Kokoro，认为其语音效果不错，有人测试后对其表现印象深刻，期待其支持更多语言。还有人提到 F5-TTS 有葡萄牙语版本，Fish Speech 1.5 也支持葡萄牙语，但需要至少一分钟的参考音频。

有用户分享个人经历，比如有人表示自己一直使用 Piper，因为 ElevenLabs 价格昂贵，而昨天安装了 Kokoro，认为它在 CPU 上运行效果较好，虽只支持英语但希望后续能支持更多语言。还有人讲述自己安装 Kokoro 时的过程和心得。

也有一些有趣或引发思考的观点，比如有人说“只能注入性感或英语感”，有人笑称“能听到总统的演讲以性感的近耳语方式呈现”。

在众多观点中，有人认为目前本地可运行的模型还无法与 ElevenLabs 相媲美，也有人提到一些模型已停止开发。同时，大家对于不同模型的优缺点和适用场景进行了深入探讨。

总的来说，关于本地 TTS 模型的讨论丰富多样，大家都在努力寻找最适合自己需求的解决方案。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#