原贴链接

经过短时间和一些干扰尝试后，Kokoro现在在语音合成（TTS）竞技场排行榜上排名第一：https://huggingface.co/spaces/Pendrokar/TTS - Spaces - Arena。我还没有做任何对比测试来看它是否比我之前使用的XTTSv2更好，但更小的模型大小和许可就足以让我在使用几分钟后就切换过来。我希望看到能生成F16和Int8版本的成果（目前我正在运行完整的F32版本）。但就只需要简单的文本语音合成渲染而言，这是一个在尺寸性能方面非常不错的模型。我猜作者正忙于开发，但我很想看到一篇关于这个的论文，以了解模型大小是如何选择的，以及是否探索过更小的模型大小。如果最终能将完整的训练管道和训练数据也开源以便重现就好了，但即使只有当前的语音和模型也已经很不错了。

讨论总结

该讨论围绕Kokoro登上TTS排行榜第一展开。主要讨论了Kokoro的速度、模型大小、在不同硬件上的性能、自然性、声音克隆能力等方面，还涉及到对Kokoro未来发展的期待，如开发更多版本、开源内容、增加语言支持等，同时也有部分评论将Kokoro与其他TTS模型进行对比，整体氛围以积极探讨为主。

主要观点

👍 Kokoro在82M的情况下表现出色
- 支持理由：如在4090上有210x实时速度等性能表现，pkmxtw称“This thing is crazy for 82M.”
- 反对声音：有评论者表示不理解Kokoro的热度，认为它听起来机械，不如Piper等。
🔥 Kokoro速度很快
- 正方观点：像Chromix_提到转换整本书仅用时4分钟就得到6小时音频，不同硬件上有较快的速度表现。
- 反方观点：有评论者认为Tortoise TTS速度很慢，但未直接与Kokoro对比反驳其速度快这一观点。
💡 Kokoro的一致性过强缺乏情感表现
- 解释：像沉默受损者提到它像Siri一样缺乏情感维度，声音单一，但仍期待探索其功能。
👍 希望Kokoro有更多发展
- 支持理由：如开发F16和Int8版本、开源训练管道和数据等，原帖作者期待看到相关论文。
- 反对声音：无。
💡 将Kokoro与其他模型对比
- 解释：有评论者比较Kokoro和XTTS，提到XTTS在最佳状态下有优势，但Kokoro在CPU上接近实时速度且输出质量高。

金句与有趣评论

“😂 Either - Job - 341: That’s the 82M model? That’s insane.”
- 亮点：以简洁的话语表达出对Kokoro如果是82M模型取得第一名的惊叹。
“🤔 teachersecret：210x realtime on a 4090. I did a 2.5 hour full fast audio in seconds. 3x - 5x realtime on cpu - only.”
- 亮点：直观地展示了Kokoro在不同硬件上的速度性能。
“👀 Lonligrin：It’s ridiculously fast, real - time factor around 0.01, 5x faster than StyleTTS2.”
- 亮点：再次强调Kokoro速度快的特点，并与StyleTTS2比较。
“😂 沉默受损者：The consistency is incredible… almost too consistent… reminds me of Siri… wish I could add just a little life: laughs, sighs, groans, excitement, sadness, it’s one dimensional…”
- 亮点：生动地描述出Kokoro缺乏情感表现的情况。
“🤔 潮湿的朋友：I wonder if that can be fine tuned though, given how small Kokoro is everyone should be able to easily fine tune it and find out.”
- 亮点：提出Kokoro能否微调的疑问。

情感分析

总体情感倾向是积极的。主要分歧点在于对Kokoro性能和热度的看法，部分人认为Kokoro速度快、表现优秀而看好它，而另一些人则认为它存在如缺乏情感、声音单一等问题，或者觉得其他模型在某些方面更有优势，如XTTS v2搭配正确文件听起来更自然。可能的原因是大家使用场景不同，对TTS模型的需求侧重点不同，有的注重速度，有的注重声音自然性等。

趋势与预测

新兴话题：关于Kokoro在特定硬件上运行的可行性、如何在本地使用TTS模型、是否有添加情感功能的GitHub库等话题可能会引发后续讨论。
潜在影响：如果Kokoro能够按照大家的期待发展，如开发更多版本、增加自然性等，可能会推动TTS领域的发展，提高TTS模型在更多场景下的可用性。

详细内容：

标题：Kokoro 在 TTS 排行榜登顶引发热烈讨论

Kokoro 短时间内经历了一些波折后，登上了 TTS Arena 排行榜榜首。原帖提到了相关链接：https://huggingface.co/spaces/Pendrokar/TTS-Spaces-Arena 。该帖子获得了众多关注，引发了大量讨论。

讨论焦点集中在 Kokoro 的性能、特点以及与其他 TTS 模型的比较等方面。有人称赞 Kokoro 模型尺寸小、速度快，比如“这东西对于 82M 来说太疯狂了”。也有人分享了个人使用经历，如“这就是我最终选用的！”还有人从专业角度进行分析，指出其在某些方面的优势，像“210 倍实时速度在 4090 上，我在几秒内完成了 2.5 小时的全快速音频”。

然而，也存在不同声音。有人认为 Kokoro 的声音在长时间使用时会显得单调，如“6 小时的演讲，那个声音不会变得单调吗？”还有人觉得它在情感表达等方面有所欠缺，“情感、强调等实际上都不可用，听起来非常‘机械’”。

同时，讨论中也涉及到对 Kokoro 未来发展的期待，比如希望能有更多的声音和语言支持，有人询问“训练代码什么时候有消息？”

总的来说，关于 Kokoro 的讨论展现了大家对 TTS 技术的关注和期待，也反映了在追求高效和高质量之间的权衡与思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#