原贴链接

大家好,我想构建一个为用户生成个性化每日新闻播客的应用。我们在寻找合适的对话生成模型时遇到了麻烦。我们应该使用什么模型来进行语音合成(TTS)呢?

讨论总结

原帖询问寻找用于生成对话的TTS模型来构建个性化每日新闻播客应用。评论者们给出了各种观点,包括推荐不同的TTS模型如Zonos、Kokoro 88M、CSM、SparkTTS等,并阐述了各自的理由,也有对AI生成播客应用持反对态度的,整体氛围是既有技术探讨又有观点冲突。

主要观点

  1. 👍 不认可Kokoro用于该场景,因其表现力不足。
    • 支持理由:评论者在实际应用场景中发现其表现力不够。
    • 反对声音:有评论者认为Kokoro 88M是目前最好的。
  2. 🔥 推荐Zonos,因其能较好控制情绪且语音克隆能力佳。
    • 正方观点:能满足生成对话时对情绪控制和语音克隆的需求。
    • 反方观点:生成时间较长。
  3. 💡 Kokoro 88M是目前最好的TTS模型。
    • 支持理由:运行速度快,是最可行且易于分发的。
    • 反对声音:有评论者认为其缺乏表现力。
  4. 🤔 推荐CSM(来自seasame)和SparkTTS用于生成对话。
    • 支持理由:直接推荐,未详细说明,但认为这两个模型可满足需求。
    • 反对声音:无(未提及)
  5. 😒 厌恶AI生成的视频、播客类内容。
    • 支持理由:觉得AI生成内容会自动关闭,体验不好。
    • 反对声音:未涉及(只是表达厌恶和反对)

金句与有趣评论

  1. “😂 人们建议kokoro但在我看来它远不够有表现力。”
    • 亮点:直接表达对Kokoro模型在表现力方面的不足。
  2. “🤔 Zonos能更好地控制情绪,而且它的语音克隆在我看来是目前最好的。”
    • 亮点:强调Zonos在情绪控制和语音克隆方面的优势。
  3. “👀 Kokoro 88M by Hexgrad, the best by far right now.”
    • 亮点:表明对Kokoro 88M模型的高度认可。
  4. “😡 Im here to say I fucking hate AI generated video, podcast stuff.”
    • 亮点:强烈表达对AI生成内容的厌恶之情。
  5. “🧐 我最近在为一个项目寻找类似的模型,主要在寻找能很好地生成有两个声音来回对话音频的模型方面遇到困难。”
    • 亮点:反映出在特定场景下寻找TTS模型的困难。

情感分析

总体情感倾向是复杂的,既有积极推荐不同TTS模型的理性探讨,也有对AI生成内容的厌恶和反对这种消极态度。主要分歧点在于对不同TTS模型的评价,例如对Kokoro模型的不同看法,可能的原因是不同用户的使用场景和需求不同。对AI生成内容的反对则是基于个人对这类内容的体验和态度。

趋势与预测

  • 新兴话题:随着对不同TTS模型的探讨,可能会引发关于如何结合不同模型优势来更好地生成对话的讨论。
  • 潜在影响:如果能找到合适的TTS模型,将有助于原帖作者构建应用,同时也可能影响到其他有类似需求的开发者在选择TTS模型时的决策。

详细内容:

《寻找最佳 TTS 模型以生成对话的热门讨论》

在 Reddit 上,有一则关于“什么是生成对话的最佳 TTS 模型”的讨论引起了大家的关注。该帖子获得了众多的浏览和评论,发帖人表示想打造一个能为用户生成个性化每日新闻播客的应用,却在寻找合适的 TTS 模型时遇到了困难。

讨论的焦点主要集中在不同 TTS 模型的特点和优势上。有人认为 Kokoro 虽速度快,但表现力稍逊,而 Zonos 在情感控制和语音克隆方面表现出色,只是生成时间较长,但对于发帖人的应用场景更合适。也有人提到了 Spark TTS ,但指出其缺少情感定制功能。还有人推荐了 Kokoro 88M by Hexgrad ,称其是目前最好的选择,运行速度快且可行。

有人询问是否有与 LLM 结合使用的推荐设置,以及 Open WebUI 或 SillyTavern 能否与这些 TTS 模型整合。还有人提供了相关的链接,如 https://speaches.aihttps://github.com/speaches-ai/speaches

在讨论中,大家对于各个模型的看法存在一定的争议。有人认为某些模型在某些方面表现出色,而另一些人则持不同意见。但也有一些共识,比如大家都在积极探讨和分享自己所了解的信息,以帮助发帖人找到最适合的 TTS 模型。

总体而言,这次关于 TTS 模型的讨论展现了大家对于技术的热情和探索精神,也为寻找最佳解决方案提供了丰富的思路和参考。