原贴链接

我正在使用Elevenlabs生成大量音频。为了节省成本、拥有更多控制权和定制性,我想要为此搭建一个本地管道。你们有人搭建过类似的东西吗?你们的体验如何?你们使用了哪些模型?你们的硬件配置是什么?我有一台i9 13900搭配4070(?)的电脑。我能承受花费大约4000 - 5000美元用于新的配置。

讨论总结

原帖主想要建立类似Elevenlabs的本地文本到语音(TTS)设置,希望节省成本并获得更多控制与定制化。评论者们积极回应,介绍了多种可能满足需求的方案,包括推荐不同的TTS模型如Parler TTS、F5 TTS、XTTSv2、OpenedAI Speech等,分享自己使用的相关软件如alltalk_tts,也有分享自己技术操作的,如从reddit上获取灵感进行开发等。讨论整体氛围积极且技术交流性强。

主要观点

  1. 👍 推荐自己开发的alltalk_tts软件及其相关功能,认为可能符合原帖主需求。
    • 支持理由:软件功能丰富,有完整的API套件等功能。
    • 反对声音:部分用户反馈使用困难、找不到某些功能等。
  2. 🔥 推荐Piper进行文本到语音转换,但存在CPU消耗大、GPU未利用的问题。
    • 正方观点:有很多语音。
    • 反方观点:消耗CPU资源过多。
  3. 💡 推荐Parler TTS为不错的开源文本转语音模型,可根据需求选择。
    • 支持理由:开源且有相关链接可尝试。
    • 反对声音:无。
  4. 🤔 推荐Pinokio用于建立本地TTS管道,有最新的TTS功能且容易上手。
    • 支持理由:容易开始使用。
    • 反对声音:未提及硬件适配等情况。
  5. 🌟 推荐F5 TTS作为可在家运行的较好的TTS,但存在一些性能问题。
    • 正方观点:能从几秒的示例音频中很好地捕捉和重现声音与情感表现且重现速度较快。
    • 反方观点:在语调、情感、停顿方面表现不好。

金句与有趣评论

  1. “😂 My software is multi - engine [https://github.com/erew123/alltalk_tts/tree/alltalkbeta] and I will be adding others, though please read my current support/development statement on there.”
    • 亮点:介绍自己开发的软件,为原帖主提供可能的解决方案。
  2. “🤔 我正在使用piper。它相当不错,有很多语音。我唯一的抱怨是它非常消耗CPU,而GPU没有被利用。这不是piper的错,而是底层模型的问题。”
    • 亮点:指出piper在使用中的问题根源。
  3. “👀 aniketmaurya: Parler TTS is a good open - source model for text - to - speech. You can try it [here](https://lightning.ai/bhimrajyadav/studios/deploy - a - speech - generation - api - using - parler - tts - powered - by - litserve)”
    • 亮点:直接推荐开源模型并给出使用链接。
  4. “💥 我最近从之前一位reddit发帖者所写的amitybell/piper获取灵感。”
    • 亮点:分享技术灵感来源。
  5. “😎 RealBiggly:Try Pinokio, they just added the latest TTS thingy and easy to get going.”
    • 亮点:简单直接地推荐Pinokio。

情感分析

总体情感倾向积极,大家都在积极为原帖主提供解决方案。主要分歧点在于不同模型的性能评价方面,如F5 TTS的表现就存在争议。可能的原因是不同用户对于语音的要求标准不同,例如对语音质量、情感表现、资源利用等方面的侧重有所差异。

趋势与预测

  • 新兴话题:随着对不同模型的探索,可能会引发关于如何整合不同模型优势的后续讨论。
  • 潜在影响:对文本到语音技术的本地应用发展可能起到推动作用,促使更多人尝试建立本地TTS管道,也可能会影响相关软件和模型的改进方向。

详细内容:

标题:在家搭建类似 Elevenlabs 的文本转语音系统,可行性与选择的探讨

在 Reddit 上,一则关于在家搭建类似 Elevenlabs 的文本转语音系统的帖子引发了热烈讨论。该帖主表示因使用 Elevenlabs 产生大量音频,为节省成本、增强控制和实现个性化定制,希望构建本地管道,并介绍了自己的硬件配置,还能为新配置投入约 4000 - 5000 美元。此帖获得了众多关注,评论众多。

讨论的焦点主要集中在各种可用的模型和软件选择上。有人提到多引擎的软件 Alltalk,称其可能满足需求,相关链接包括https://github.com/erew123/alltalk_tts/tree/alltalkbetahttps://github.com/erew123/alltalk_tts/discussions/237等。但也有人试用后表示在让其工作方面遇到困难,比如 knvn8 称尝试了两个小时后沮丧放弃,认为应用程序中的说明不够清晰。

有人推荐 Piper,认为其还算不错但 CPU 占用高,GPU 未充分利用,有人则表示 GPU 运行 Piper 也需要额外配置。Parler TTS 也被推荐,还有 XTTS、E2、E5 等被认为是不错的开源模型。

对于语音训练和克隆的问题,也有不少争论。有人认为训练和克隆是不同的,也有人认为在底层都是训练。

有人提到 F5 TTS,观点不一。有人认为它表现出色,比如 mintybadgerme 称在自己的测试中效果惊人;但也有人指出其存在不足,比如 InterestingTea7388 认为在语调、情感、停顿等方面不够好。

总之,在这场讨论中,大家对于在家搭建文本转语音系统各抒己见,提供了丰富的信息和不同的观点,为有类似需求的人提供了多样的参考。但究竟哪种方案最适合,还需要根据个人的硬件配置、技能水平和具体需求来决定。