原贴链接

GPT Sovits的第3版两周前发布,在中国之外我还没看到过相关讨论。新版本的参数量从1.67亿增加到4.07亿,语音克隆能力相比之前版本也有很大提升。零样本(使用短于10秒的单个音频样本)和经过训练的语音现在都更接近原始语音,并且能更稳定地保持样本的情感。GPT Sovits支持英语、汉语、日语、韩语和粤语。根据我的个人测试,目前它是日语零样本语音克隆的最佳选择。这是机器翻译后的更新日志链接:https://github - com.translate.goog/RVC - Boss/GPT - SoVITS/wiki/GPT‐SoVITS‐v3‐features-(新特性)?_x_tr_sl = auto&_x_tr_tl = en&_x_tr_hl = ja&_x_tr_pto = wapp。注意:他们Github页面上的音频示例仍然是V2版本的而非V3版本的。而且一旦你启动Gradio界面,你需要从下拉菜单中选择V3版本,因为默认仍然是V2版本。

讨论总结

这是一个关于GPT - Sovits V3发布的讨论。有人分享了该版本的特性如参数增加、语音克隆能力提升和多语言支持等,有人感谢发帖者分享信息并回忆自己之前使用的良好体验,也有人将其与其他产品如llasa - 8b、F5进行比较,同时还有用户反馈使用中遇到的问题,以及对项目名称表达不满等,整体讨论氛围比较多元。

主要观点

  1. 👍 感谢发帖者分享GPT - Sovits相关内容
    • 支持理由:为大家提供了GPT - Sovits V3的信息来源。
    • 反对声音:无。
  2. 🔥 GPT - Sovits V3可能远不如F5
    • 正方观点:未明确给出,可能基于个人经验或对F5的信任。
    • 反方观点:有人指出F5存在输出效果差等问题。
  3. 💡 v3版本比v2版本在声音呈现上有很大改善
    • 解释:一些在v2版本中变成通用声音的音频样本在v3版本中能够准确地呈现声音。
  4. 💡 使用F5输出的效果不佳,声音机械
    • 解释:用户分享自己的使用体验,提供了音频样本相关信息。
  5. 💡 认为“GPT - Sovits”这个名字唤起不好的回忆且不推荐使用
    • 解释:以个人感受出发表达对项目名称的看法。

金句与有趣评论

  1. “😂 Thank you for posting this.”
    • 亮点:简单直接表达对发帖者的感谢。
  2. “🤔 我打赌GPT - Sovits V3仍远不如F5。”
    • 亮点:提出了比较性的观点,引起后续关于两者比较的讨论。
  3. “👀 不管我怎么做,我的F5输出总是很糟糕。它们因为伪影听起来超级机械。”
    • 亮点:详细描述了F5输出的问题。
  4. “🤔 v2 had really poor similarity to the reference voice - is it better now?”
    • 亮点:对版本之间的改进提出疑问。
  5. “😂 Why it is called "sovits". It causes my past traumas to surface. Not nice!”
    • 亮点:以独特的个人感受对项目名称进行调侃。

情感分析

总体情感倾向比较复杂,有正面的感谢和对功能的肯定,也有负面的对产品的不满(如认为不如其他产品、存在问题等)和对名称的不认可。主要分歧点在于GPT - Sovits V3与其他产品(如F5)的比较,以及对GPT - Sovits这个名字的看法。可能的原因是不同用户使用不同产品有不同体验,以及对名称的审美和联想不同。

趋势与预测

  • 新兴话题:关于GPT - Sovits后续版本是否能解决现有问题(如音频泄漏等)。
  • 潜在影响:如果GPT - Sovits能够不断改进,可能会在语音克隆领域对其他产品的市场份额产生影响,同时也可能影响相关技术在多语言环境下的应用。

详细内容:

标题:GPT-Sovits V3 TTS 发布引发Reddit热议

近日,Reddit上出现了一则关于GPT-Sovits V3 TTS(407M)发布的帖子,获得了众多关注。该帖子https://github.com/RVC-Boss/GPT-SoVITS/releases/tag/20250228v3提到,GPT-Sovits V3 两周前发布,新版本将参数数量从 167m 提升至 407m,语音克隆能力较之前版本有了很大提升,支持多种语言,作者个人测试认为其在日语 0 样本语音克隆方面表现最佳。还提供了机器翻译的更新日志链接:https://github-com.translate.goog/RVC-Boss/GPT-SoVITS/wiki/GPT‐SoVITS‐v3‐features-(新特性)?\_x\_tr\_sl=auto&\_x\_tr\_tl=en&\_x\_tr\_hl=ja&\_x\_tr\_pto=wapp,并提醒Github页面的音频示例仍是 V2 版本,使用 Gradio 界面时需从下拉菜单中选择 V3。

讨论焦点与观点分析: 有人感谢发帖者分享,表示一年前就接触过 GPT-Sovits,对其日语语音克隆印象深刻,之前因很多文档是中文导致其被低估,现在翻译很容易。 有人将其与 llasa-8b 作比较。 有人认为它仍不如 F5,有人则表示 F5 v1 刚推出几天表现很棒。 有人称无论怎么操作,从 F5 得到的输出都很差,声音机械有杂音,用耳机听很明显,还提供了相关链接https://huggingface.co/spaces/mrfakename/E2-F5-TTS 。 有人分享尝试后遇到参考语音的音频泄漏到合成语音中的问题。 有人对其名称感到疑惑,有人解释名称由来。 有人质疑 v2 对参考语音的相似度差,询问 v3 是否有改进。

综合来看,对于 GPT-Sovits V3 的评价各有不同,其性能提升及存在的问题都引发了大家的热烈讨论。