原贴链接

我测试了几款TTS应用——你可以决定哪款是最好的

讨论总结

本讨论主要关注多个TTS应用的测试体验和性能表现,参与者们分享了自己的使用经验和观点,对各个项目的优缺点进行了详细分析。讨论涉及开源性质、实时性能、情感表达、语音克隆、音质评价等多个方面。

主要观点

  1. 👍 TTS应用普遍具有开源性质
    • 支持理由:所有提到的TTS应用都是开源的,并提供了相应的GitHub仓库链接。
    • 反对声音:无
  2. 🔥 TTS应用在本地运行效果良好,但实时性能不一
    • 正方观点:这些TTS应用在本地运行效果良好,声音质量较高。
    • 反方观点:部分TTS应用在实时性能方面表现不一,有的速度快但发音不准确,有的发音较好但速度不够快。
  3. 💡 CozyVoice的声音效果好,但急需一个开源替代品来对抗Elevenlabs
    • 解释:CozyVoice的声音效果很好,但需要寻找一个开源的替代品来对抗Elevenlabs。
  4. 🤔 xttsv2在声音变化上最有趣,但其他应用在句子处理上有问题
    • 解释:xttsv2在声音变化上最有趣,但其他应用在句子处理上有问题。
  5. 😂 FishSpeech的声音让人感觉有些可疑,类似于他不想听到的人的声音
    • 解释:FishSpeech的声音让人感觉有些可疑,类似于他不想听到的人的声音。

金句与有趣评论

  1. “😂 I preferred fish-speech from the samples there..”
    • 亮点:表达了对特定语音样本的偏好。
  2. “🤔 any of them good for real time tts? i mean i can do without RVC but am hoping something that can do real time and fast/decent enough say with 8gb vram.”
    • 亮点:询问了关于实时TTS应用的性能需求。
  3. “👀 watch out tho fish speech is non commercial sharealike, not open source. you can read the source, but it’s not open source.”
    • 亮点:提醒了关于FishSpeech的开源性质问题。

情感分析

讨论的总体情感倾向较为积极,主要分歧点在于不同TTS应用的性能表现和功能需求。部分参与者对TTS应用的音质和情感表达表示赞赏,但也有人对实时性能和GUI等方面提出了更高的要求。

趋势与预测

  • 新兴话题:TTS应用在情感表达和语音克隆方面的技术进展。
  • 潜在影响:TTS技术的进一步发展可能会改变语音合成领域的现状,为用户带来更自然、更真实的语音体验。

详细内容:

标题:Reddit 上关于 TTS 应用的热门讨论

在 Reddit 上,一篇题为“I tested few TTS apps – You can decide what’s the best”的帖子引起了广泛关注。该帖子包含了一个视频链接https://llminfo.image.fangd123.cn/videos/1fwn92m.mp4,并引发了众多用户对不同 TTS 应用的热烈讨论。帖子获得了大量的点赞和评论,大家的讨论主要集中在各个 TTS 应用的优缺点、适用场景、性能需求以及未来发展等方面。

在讨论中,有人指出鱼语音(fish speech)并非开源的商业共享型。还有人表示,尽管某些资源可获取,但这并不足以使其被定义为开源。有人补充了相关的代码库链接,如https://github.com/FunAudioLLM/CosyVoice、[https://github.com/fishaudio/fish - speech](https://github.com/fishaudio/fish - speech)等。

关于个人使用反馈,有用户认为本地羊驼(LOCALllama)很棒,也有人询问是否有适用于实时 TTS 且对 VRAM 要求不高的应用。比如,有用户分享自己的测试经历:“我上周测试了几个,suno/bark 太过机械(非对话式),chatTTS 还不错但不够快,meloTTS 速度快但部分发音不好。”

在见解和观点方面,有的用户觉得 xttsv2 在语音克隆和语音模式方面表现最佳,但输出质量最差;有的认为第二个例子质量最好但其他方面表现一般。还有用户提到 fish speech 编译后效果很好,有人认为 CozyVoice 声音不错,需要开源替代 Elevenlabs。

对于个人需求,有人想知道这些应用能否在安卓设备上运行,有人表示理论上可以但需要高配置,也有人说 fish - speech 只需 4GB VRAM 就可行。

有人提出能否对这些模型进行微调以实现非语音声音的良好生成,比如呼吸、大笑、哭泣等。还有人询问是否有相关的微调教程和推荐模型。

总体而言,xtts - v2 被不少用户认为是表现出色的,但也存在一些问题,如 artifact 噪音等。大家对 TTS 应用的发展充满期待,希望能有更多改进和创新。