原贴链接

经过多次迭代,这是我使用F5 - TTS语音克隆能得到的最佳质量了。下面的示例是英式口音,我也做过美式口音的。我觉得它接近eleven labs的质量。仔细听听尖锐的s音,听起来高质量吗?我在M1 Mac Pro上使用MLX版本,生成速度大概是1:2。让我知道你们的想法。附件中的文件是可供收听的音频文件。它之前是质量高很多的WAV文件。最终文件是一个快速转换的小于1MB的mp4文件供你收听。https://reddit.com/link/1h3k8b9/video/rlzuu48eb34e1/player

讨论总结

原帖分享F5 - TTS语音克隆成果,引发网友讨论。大部分评论者对该成果持正面态度,惊叹于语音技术的进步,认可成果质量。还有不少评论者就如何提升质量、录制、处理音频、切换语音风格等方面进行交流,也有部分人指出语音克隆存在机械朗读的局限。总体氛围较为积极,充满对语音技术发展的探索。

主要观点

  1. 👍 惊叹于语音技术进步,认可F5 - TTS语音克隆成果
    • 支持理由:与早期“speak and spell”对比,进步巨大,听起来很棒。
    • 反对声音:无。
  2. 🔥 提供获得类似质量结果的技巧
    • 正方观点:准确语音参考、分割语音块、清理音频等有助于提升质量。
    • 反方观点:无。
  3. 💡 指出F5 - TTS语音克隆存在机械朗读的局限
    • 解释:虽然声音效果不错,但只能机械性朗读。
  4. 💡 探讨通过脚本或微调实现不同语音风格
    • 解释:有人认为可运行脚本,也有人指出F5本身能力有限,还探讨了微调的可能性。
  5. 💡 解答录制语音相关疑问
    • 解释:包括参考音频时长、避免背景噪音等方面的解答。

金句与有趣评论

  1. “😂 Its amazing how far we’ve come from the speak and spell.”
    • 亮点:通过与早期语音技术对比,直观体现出现在语音技术的巨大进步。
  2. “🤔 chosenCucumber:It sounds great. do you have any tips to achieve similar quality results?”
    • 亮点:认可成果的同时,引出提升质量的技巧探讨。
  3. “👀 a_beautiful_rhind:It sounds pretty good. My only problem with these TTS is that all they can do is someone reading.”
    • 亮点:既肯定语音克隆的声音效果,又指出存在的主要问题。

情感分析

总体情感倾向是积极的。主要分歧点在于F5 - TTS语音克隆是否能有不同风格,可能的原因是大家对语音克隆技术的期望和理解不同,有些人关注声音效果本身,而有些人则希望它能有更多的功能和表现。

趋势与预测

  • 新兴话题:通过脚本或其他方式为语音克隆添加风格可能会成为后续讨论热点。
  • 潜在影响:如果能解决语音克隆风格单一的问题,将推动语音技术在更多领域如语音播报、有声读物等的应用。

详细内容:

标题:关于 F5-TTS 语音克隆的精彩探讨

在 Reddit 上,一篇题为“ My best effort at using F5-TTS Voice Cloning ”的帖子引发了众多关注。该帖子的作者经过多次尝试,展示了其通过 F5 TTS 语音克隆获得的最佳质量成果,提供了英音版本,还做了美音版本,并认为接近 eleven labs 的质量。同时附上了音频文件,原本是高质量的 WAV 格式,为方便呈现转换为小于 1MB 的 MP4 格式。此贴获得了大量的点赞和众多评论。

讨论的焦点主要集中在如何实现高质量的语音克隆效果以及相关技巧。有人称赞其成果惊人,有人询问实现类似质量的建议。比如有用户分享道:“1. 提供准确的语音参考,且语音风格需符合期望。2. 用块分割生成,每块以句号结束。3. 生成后在 Adobe Audition 或 Premiere Pro 的 AI 增强工具中清理音频。”

关于录制问题,有人正在录制自己的声音但不确定说什么、时长以及麦克风拾取鼠标点击声是否有影响。对此有人回应,若用于微调模型,点击声是个问题,需重新录制或处理掉,包括所有潜在背景噪音。对于录制时长,参考音频以 8 - 15 秒清晰干净的话语为宜,而微调则需要大量 30 秒左右的录音。

还有人提到对音频中“sharp S’s”的看法,有人喜欢,有人认为应避免“hard P’s popping sound”。有人还分享了自己的处理流程,包括准备参考片段、处理噪音等。

关于不同风格和情感的表达,有人希望能自动从文本中获取而非手动输入提示,也有人提出通过链多个参考音频实现不同情感的表达,效果不错。但对于能否微调实现这一功能,大家看法不一。

在这场讨论中,大家的共识是实现高质量的语音克隆需要多方面的注意和技巧。而独特的观点如特定的处理流程和对不同声音元素的看法,丰富了讨论内容。

总之,这场关于 F5-TTS 语音克隆的讨论展现了技术探索中的多样思考和实践经验,为感兴趣的人提供了宝贵的参考。