原贴链接

经过短时间和一些干扰尝试后,Kokoro现在在语音合成(TTS)竞技场排行榜上排名第一:https://huggingface.co/spaces/Pendrokar/TTS - Spaces - Arena。我还没有做任何对比测试来看它是否比我之前使用的XTTSv2更好,但更小的模型大小和许可就足以让我在使用几分钟后就切换过来。我希望看到能生成F16和Int8版本的成果(目前我正在运行完整的F32版本)。但就只需要简单的文本语音合成渲染而言,这是一个在尺寸性能方面非常不错的模型。我猜作者正忙于开发,但我很想看到一篇关于这个的论文,以了解模型大小是如何选择的,以及是否探索过更小的模型大小。如果最终能将完整的训练管道和训练数据也开源以便重现就好了,但即使只有当前的语音和模型也已经很不错了。

讨论总结

该讨论围绕Kokoro登上TTS排行榜第一展开。主要讨论了Kokoro的速度、模型大小、在不同硬件上的性能、自然性、声音克隆能力等方面,还涉及到对Kokoro未来发展的期待,如开发更多版本、开源内容、增加语言支持等,同时也有部分评论将Kokoro与其他TTS模型进行对比,整体氛围以积极探讨为主。

主要观点

  1. 👍 Kokoro在82M的情况下表现出色
    • 支持理由:如在4090上有210x实时速度等性能表现,pkmxtw称“This thing is crazy for 82M.”
    • 反对声音:有评论者表示不理解Kokoro的热度,认为它听起来机械,不如Piper等。
  2. 🔥 Kokoro速度很快
    • 正方观点:像Chromix_提到转换整本书仅用时4分钟就得到6小时音频,不同硬件上有较快的速度表现。
    • 反方观点:有评论者认为Tortoise TTS速度很慢,但未直接与Kokoro对比反驳其速度快这一观点。
  3. 💡 Kokoro的一致性过强缺乏情感表现
    • 解释:像沉默受损者提到它像Siri一样缺乏情感维度,声音单一,但仍期待探索其功能。
  4. 👍 希望Kokoro有更多发展
    • 支持理由:如开发F16和Int8版本、开源训练管道和数据等,原帖作者期待看到相关论文。
    • 反对声音:无。
  5. 💡 将Kokoro与其他模型对比
    • 解释:有评论者比较Kokoro和XTTS,提到XTTS在最佳状态下有优势,但Kokoro在CPU上接近实时速度且输出质量高。

金句与有趣评论

  1. “😂 Either - Job - 341: That’s the 82M model? That’s insane.”
    • 亮点:以简洁的话语表达出对Kokoro如果是82M模型取得第一名的惊叹。
  2. “🤔 teachersecret:210x realtime on a 4090. I did a 2.5 hour full fast audio in seconds. 3x - 5x realtime on cpu - only.”
    • 亮点:直观地展示了Kokoro在不同硬件上的速度性能。
  3. “👀 Lonligrin:It’s ridiculously fast, real - time factor around 0.01, 5x faster than StyleTTS2.”
    • 亮点:再次强调Kokoro速度快的特点,并与StyleTTS2比较。
  4. “😂 沉默受损者:The consistency is incredible… almost too consistent… reminds me of Siri… wish I could add just a little life: laughs, sighs, groans, excitement, sadness, it’s one dimensional…”
    • 亮点:生动地描述出Kokoro缺乏情感表现的情况。
  5. “🤔 潮湿的朋友:I wonder if that can be fine tuned though, given how small Kokoro is everyone should be able to easily fine tune it and find out.”
    • 亮点:提出Kokoro能否微调的疑问。

情感分析

总体情感倾向是积极的。主要分歧点在于对Kokoro性能和热度的看法,部分人认为Kokoro速度快、表现优秀而看好它,而另一些人则认为它存在如缺乏情感、声音单一等问题,或者觉得其他模型在某些方面更有优势,如XTTS v2搭配正确文件听起来更自然。可能的原因是大家使用场景不同,对TTS模型的需求侧重点不同,有的注重速度,有的注重声音自然性等。

趋势与预测

  • 新兴话题:关于Kokoro在特定硬件上运行的可行性、如何在本地使用TTS模型、是否有添加情感功能的GitHub库等话题可能会引发后续讨论。
  • 潜在影响:如果Kokoro能够按照大家的期待发展,如开发更多版本、增加自然性等,可能会推动TTS领域的发展,提高TTS模型在更多场景下的可用性。

详细内容:

标题:Kokoro 在 TTS 排行榜登顶引发热烈讨论

Kokoro 短时间内经历了一些波折后,登上了 TTS Arena 排行榜榜首。原帖提到了相关链接:https://huggingface.co/spaces/Pendrokar/TTS-Spaces-Arena 。该帖子获得了众多关注,引发了大量讨论。

讨论焦点集中在 Kokoro 的性能、特点以及与其他 TTS 模型的比较等方面。有人称赞 Kokoro 模型尺寸小、速度快,比如“这东西对于 82M 来说太疯狂了”。也有人分享了个人使用经历,如“这就是我最终选用的!”还有人从专业角度进行分析,指出其在某些方面的优势,像“210 倍实时速度在 4090 上,我在几秒内完成了 2.5 小时的全快速音频”。

然而,也存在不同声音。有人认为 Kokoro 的声音在长时间使用时会显得单调,如“6 小时的演讲,那个声音不会变得单调吗?”还有人觉得它在情感表达等方面有所欠缺,“情感、强调等实际上都不可用,听起来非常‘机械’”。

同时,讨论中也涉及到对 Kokoro 未来发展的期待,比如希望能有更多的声音和语言支持,有人询问“训练代码什么时候有消息?”

总的来说,关于 Kokoro 的讨论展现了大家对 TTS 技术的关注和期待,也反映了在追求高效和高质量之间的权衡与思考。