原贴链接

我一直在成功使用xTTs - V2,但它有250个字符的限制且无法修改。即使你强行修改,音频效果也会很差。是否有更好的开源模型,可以克隆声音,生成速度更快且无字符大小限制?

讨论总结

原帖寻求无字符限制、能克隆声音且生成速度快的开源TTS。评论者们围绕这一主题展开讨论,有的分享自己使用特定工具的体验,如对fish.audio的正面评价;有的推荐其他工具,如gpt - sovits;还有针对字符限制提出了多种看法,包括疑惑、去除限制的建议、拆分文本的解决方案等,也涉及到不同模型的对比等内容。总体氛围比较积极地交流与分享信息。

主要观点

  1. 👍 使用fish.audio的API版本体验良好
    • 支持理由:评论者表示自己很喜欢它的表现。
    • 反对声音:无。
  2. 🔥 gpt - sovits在语音克隆方面速度更快且更好
    • 正方观点:推荐者称其在语音克隆上速度更快、质量更好。
    • 反方观点:无。
  3. 💡 开源可去除xTTs - V2字符限制
    • 支持理由:因为是开源的所以可以修改。
    • 反对声音:无。
  4. 💡 xTTs - V2训练成本高且长音频训练效果提升不大
    • 支持理由:经过实践发现训练成本和效果的情况。
    • 反对声音:无。
  5. 💡 可以将文本拆分来解决字符限制问题
    • 支持理由:便于后续处理如连接文件、重新生成有问题句子。
    • 反对声音:会使语音听起来不自然。

金句与有趣评论

  1. “😂 我只使用过API版本,但我很喜欢fish.audio的表现。”
    • 亮点:直接表达对fish.audio的喜爱。
  2. “🤔 Have you tried gpt - sovits? It’s faster and better at voice cloning.”
    • 亮点:推荐了gpt - sovits并强调其优势。
  3. “👀 Even if there is a limit, it’s open source so you can just… remove the limit?”
    • 亮点:提出一种针对字符限制的大胆解决思路。
  4. “😉 It is very expensive to train. The model itself still doesn’t do that much better when trained on more longer audio.”
    • 亮点:指出xTTs - V2训练成本和长音频训练效果的情况。
  5. “🙄 It sounds very unnatural and is frustrating.”
    • 亮点:说出拆分文本方法存在的问题。

情感分析

总体情感倾向为积极,主要分歧点在于对解决字符限制问题的方法存在不同看法,如拆分文本虽合理但可能使语音不自然。可能的原因是不同的使用者对于语音合成的要求和侧重点不同,有些人注重生成的便利性,有些人注重语音的自然度。

趋势与预测

  • 新兴话题:探讨不同语音合成模型的训练成本和效果之间的关系。
  • 潜在影响:对语音合成技术的发展有推动作用,可能促使开发者优化开源TTS的性能,减少字符限制等问题,提高用户体验。

详细内容:

标题:寻找无字符限制且能克隆声音的开源 TTS 模型

最近,Reddit 上有一个热门讨论帖引起了大家的关注。帖子询问是否存在没有字符限制、能够克隆声音并且生成速度更快的开源 TTS 模型。原帖提到一直在使用 xTTs-V2,但它有 250 个字符的限制,即便强行修改,音频效果也很差。此帖获得了众多关注,引发了激烈的讨论。

讨论焦点与观点分析: 有人表示只使用过 API 版本,觉得fish.audio表现不错,并提供了相关链接https://github.com/fishaudio/fish-speech。有人从未知道 xttsv2 有字符限制,因为可以流式输出音频,还推荐尝试 gpt - sovits,认为它更快且在声音克隆方面更出色。有人提出即使有字符限制,因为是开源的可以自行去除限制。也有人认为训练成本高昂,即便在更多长音频上训练,模型效果也未必好。还有人建议可以按照句号拆分数据。有人表示虽然尝试过修改 xTTs-V2 中 250 字符的限制,但输出效果糟糕。有人提到可以将文本拆分,生成后再连接文件,这样能轻松重新生成出错的句子。有人称按句号拆分效果不错。但也有人认为这样听起来很不自然且令人沮丧,很多人因此转向像 Parler 这样限制更大的模型。还有人指出克隆引擎都有字符限制和拆分的情况,并提供了相关链接[https://github.com/erew123/alltalk_tts/tree/alltalkbeta]。

这场讨论中的共识在于大家都在积极寻找更好的解决方案,以满足对无字符限制且能克隆声音的 TTS 模型的需求。不同观点的碰撞也为寻找最佳方案提供了更多的思路和可能性。

你觉得哪种方案更有可能解决原帖提出的问题呢?是修改现有模型,还是转向其他限制更大但效果更好的模型?