原贴链接

大家好,我已经使用ElevenLabs一段时间了,但现在想自己搭建服务器(自托管)。F5 - TTS仅用几秒音频就能克隆语音的能力给我留下了深刻印象。然而,就我的使用情况而言,每个角色我有10 - 20分钟的音频用于训练。在这种情况下,哪些语音克隆解决方案效果最佳呢?理想情况下,我提前针对每个角色训练模型,然后使用该模型进行推理。

讨论总结

原帖作者寻求有10 - 20分钟参考音频时最佳的开源语音克隆方案,以替代之前使用的ElevenLabs并进行自我托管。评论者们积极推荐各种方案,如AuntieTeam提到RVC与XTTS 2结合不错,mellowanon指出RVC的转换依赖问题,Cultured_Alien推荐GPT - SoVITS微调效果好等,还有人推荐了MaskCGT、OpenVoice、coqui/XTTS - v2等,同时也涉及对各方案的效果、速度、是否缺乏灵魂等方面的讨论,此外还穿插了一个关于视频链接有效性和内容语言的小插曲。

主要观点

  1. 👍 RVC是语音克隆不错选择,可与XTTS 2结合
    • 支持理由:AuntieTeam分享经验提及。
    • 反对声音:无。
  2. 🔥 GPT - SoVITS微调是目前最好的,远超XTTS2或F5参考语音克隆
    • 正方观点:Cultured_Alien推荐且表示效果远超其他。
    • 反方观点:无。
  3. 💡 RVC依赖输入音频转换,输入为人类语音转换效果佳,输入为TTS时效果有问题
    • 理由:mellowanon根据自身对RVC的理解指出。
  4. 💡 微调F5 - TTS效果很好,推理速度快,几乎与ElevenLabs无差别
    • 理由:AuntieTeam尝试后得出。
  5. 💡 MaskGCT在零采样方面目前似乎是最好的
    • 理由:评论者根据经验认为。

金句与有趣评论

  1. “😂 Since this got a decent amount of upvotes and no comments I’ll share what I’ve learned so far in case it’s helpful to others.”
    • 亮点:AuntieTeam看到点赞多无评论分享经验的热心。
  2. “🤔 RVC changes the input audio voice to the cloned voice, and it’s pretty good at it. The main issue is that it can’t work by itself and relies on an input audio file in order to convert it.”
    • 亮点:mellowanon清晰指出RVC的特点和问题。
  3. “👀 [GPT - SoVITS](https://github.com/RVC - Boss/GPT - SoVITS) finetune is definitely SOTA far surpassing finetuned XTTS2 or F5 reference voice clone (though i’ve never heard of F5 finetuned results yet).”
    • 亮点:Cultured_Alien强调GPT - SoVITS微调的优越性。

情感分析

总体情感倾向积极,大家都在热心分享自己知道的语音克隆方案和经验。主要分歧点在于各方案的优劣比较,例如RVC的转换依赖问题、不同方案的效果差异等,可能的原因是大家使用的场景、对效果的评判标准以及自身技术能力不同。

趋势与预测

  • 新兴话题:对F5 - TTS进行反向工程创建可调用API可能会引发后续讨论。
  • 潜在影响:如果这些语音克隆方案不断发展完善,可能会对语音相关领域如语音合成、语音助手等产生积极推动作用,例如提高语音定制的效果和效率等。

详细内容:

标题:探索开源语音克隆的最佳方案

在 Reddit 上,一篇题为“Best Open Source Voice Cloning if you have lots of reference audio?”的帖子引起了广泛关注。该帖子的作者表示自己使用过 ElevenLabs 一段时间,现在想自托管,并询问对于拥有 10 - 20 分钟音频/每个角色的情况,哪种语音克隆解决方案效果最佳。此贴获得了众多点赞和评论,引发了热烈的讨论。

讨论的焦点主要集中在多种语音克隆方案的优劣。有人提到 RVC(https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/docs/en/README.en.md)是个不错的选择,但与 XTTS 2 结合使用效果会更好。还有用户指出 RVC 能将输入音频的声音转换为克隆的声音,效果不错,但存在一些问题,比如依赖输入音频文件进行转换,如果输入音频来自 TTS 则效果不太好。也有人分享说,经过尝试,对 F5-TTS 进行相同声音文件的微调取得了非常好的结果,推理速度也很快。

一些有趣或引发思考的观点也不断涌现。比如,有人认为一半的 XTTS2 + RVC 读起来不自然,还找到了可能有帮助的排行榜 https://huggingface.co/spaces/TTS-AGI/TTS-Arena 以及相关视频 https://www.youtube.com/watch?v=B1IfEP93V_4

在个人经历和案例分享方面,有人表示下一步是进行一点逆向工程,制作一个可调用的 API。还有人提到 F5-TTS 很快会在 AllTalk beta 中,正在进行测试。

总之,关于开源语音克隆的最佳方案,大家各抒己见,分享经验,为寻找最佳方案提供了丰富的参考和思路。但目前仍没有一个绝对完美的答案,还需要根据具体需求和使用场景来选择。