原贴链接

我最近训练了这个模型:[https://huggingface.co/hexgrad/Kokoro - 82M](https://huggingface.co/hexgrad/Kokoro - 82M)。README里包含了所有信息,简单来说:Kokoro是一个就其规模而言表现非常好的TTS模型。抱歉发了两次,第一次帖子还在处理时突然就被‘domeration’(是的,我故意这么拼写,很快你就会明白)删除了。上次我试着在评论里给人们回复更长、更有意义的内容,但总是被‘dashow - nabbed’,当我编辑原帖包含那个不能提及的词时,整个帖子就消失了。这次我就不说话了,让帖子自己说话吧,你们可以在‘sidcord’上找到我,在那里我们可以更自由地交流,因为我在这里似乎有GTA 5星(指被严格监管)。最后,我也在收集合成音频,如果感兴趣可以看[https://hf.co/posts/hexgrad/418806998707773]。

讨论总结

这个讨论主要围绕Kokoro - 82M这个Apache TTS模型展开。大部分评论者对该模型表示认可和赞赏,认为就其规模而言表现出色,整体效果好,甚至优于一些大型和专有闭源模型。还有许多人对模型训练的相关情况感兴趣,如训练时长、使用的GPU数量与类型等,同时也有部分评论者分享了自己在使用该模型过程中的测试结果或应用情况,也有少数人表达了不感兴趣的态度。

主要观点

  1. 👍 认为Kokoro - 82M模型就其规模而言表现出色
    • 支持理由:多位评论者提到模型在较小规模下却有很好的发声效果,如“85m is tiny for an ML model nowadays and I’m stunned by how good it sounds.”
    • 反对声音:无
  2. 🔥 对Kokoro - 82M模型的发声效果给予高度评价
    • 正方观点:许多评论者称赞其声音效果,像“这个模型甚至听起来比很多专有闭源模型还好。”
    • 反方观点:无
  3. 💡 对模型训练相关情况感兴趣
    • 许多评论者询问模型训练的各种信息,如时长、GPU使用情况、成本等。
  4. 💡 有在自己项目中使用该模型的意愿
    • 部分评论者表示想在自己的项目中使用这个模型,如“Amazing! I’d love to use this with my project I’ll be sharing soon.”
  5. 💡 希望看到模型进一步完善
    • 例如希望有包含微调功能的github代码等。

金句与有趣评论

  1. “😂 85m is tiny for an ML model nowadays and I’m stunned by how good it sounds.”
    • 亮点:用对比突出模型在小尺寸下有好效果。
  2. “🤔 我甚至无法理解这有多好,不仅仅是就模型大小而言,而是总体上。”
    • 亮点:强调模型整体表现优秀。
  3. “👀 Awesome job on this, ever since I found it I’ve been loving the model for how fast and easy to mess with it is.”
    • 亮点:体现出模型的易操作性。
  4. “😎 This is so good I’m drooling to contribute either to the repo/presentation/demo or nudge my friends who do podcasts and e - books.”
    • 亮点:表达出对模型的喜爱以及想要做出贡献的强烈意愿。
  5. “👍 You did the best tts model for cpu, until now i was using piper, but you are at another level.”
    • 亮点:通过与之前使用的模型对比肯定了该模型的优势。

情感分析

总体情感倾向为正面,大部分评论者对Kokoro - 82M模型给予了赞赏、认可,对模型的训练者表示感谢等。主要分歧点在于有个别评论者对非克隆相关的TTS模型不感兴趣,原因是认为TTS在很大程度上已经解决基本问题,现在需要有一流克隆支持的TTS。

趋势与预测

  • 新兴话题:模型训练相关信息的进一步探索以及模型在更多应用场景中的使用。
  • 潜在影响:可能会促使更多人关注这个模型,进而推动TTS技术在更多领域的应用和发展,也可能会影响相关模型训练的研究方向。

详细内容:

标题:Reddit 热议 Kokoro-82M:创新的 Apache TTS 模型

最近,Reddit 上一则关于 Kokoro-82M 这个 Apache TTS 模型的帖子引发了众多网友的热烈讨论。该帖子https://huggingface.co/hexgrad/Kokoro-82M获得了极高的关注度,评论众多。讨论的主要方向集中在模型的性能、训练方式、应用场景等方面。

讨论焦点与观点分析: 有人表示,看过样本后认为这个模型考虑到其规模是非常有趣的。还有人惊叹于其虽规模小但表现出色,是近期所见最好的 TTS 系统之一。有人好奇模型的设计和训练细节,询问是在本地还是服务器上训练的,成本如何。有人分享了自己想要尝试训练模型的想法,这个项目重新激发了其兴趣。 有人称赞这个模型很棒,提出一些问题,如实时速度的最低配置、是否适用于浏览器边缘实现、训练新声音的 GPU 成本/时间等。有人指出在不同硬件上的性能表现,如 3060 能达到 34 倍速度,4090 能达到 210 倍实时速度等。 有人称赞作者工作出色,想了解训练细节,包括训练时间、使用的 GPU 等。有人探讨使用 OpenAI API 生成的语音样本用于训练 TTS 是否违反服务条款。有人认为即使能证明违规也无所谓,因为 AI 生成的音频没有版权。 有人探讨如何触发情感,有人认为由于是基于合成数据训练,可能在情感方面有所欠缺。有人希望有更好的克隆支持。

总之,对于 Kokoro-82M 模型,大家既有肯定和赞扬,也有对其进一步完善和拓展应用的期待。