大家好,
我最近一直在寻找可商业使用的TTS系统,已经找了几天了。我想和其他人确认一下,看看我是否遗漏了什么,或者还有什么其他需要注意的。我从未使用过这些类型的LLMs,也没有训练它们处理其他语言。我希望更新这个列表,以便其他人不必再次搜索。如果你发现有什么好的可以添加或纠正的,请告诉我。
我正在寻找实时响应能力,并且能够处理四种语言:英语、法语、德语和荷兰语,同时能够控制语音的情感/语调。如果能在Nvidia 3080上运行,并使用LLAMA 3.1 8B进行测试,那就太好了,但我可能需要更好的设置。到目前为止,coqui-ai、paraler-tts和Cosy Voice看起来最有希望。
- huggingface/parler-tts: 高质量TTS模型的推理和训练库。(github.com) 训练于英语,但可以训练其他语言,并且免费用于商业用途。提示控制说话风格
- coqui-ai/TTS: 🐸💬 - 一个用于文本到语音的深度学习工具包,在研究和生产中经过实战测试 (github.com) 支持所有语言,并且
免费用于商业。更新:每年365美元 Coqui XTTS商业许可证常见问题解答 / Coqui 此外,该公司正在关闭。从这里可以看出,如果你在使用前没有购买,你就不能商业使用 XTTS关闭后的许可证 · Issue #3490 · coqui-ai/TTS (github.com). - FunAudioLLM/CosyVoice: 多语言大型语音生成模型,提供推理、训练和部署的全栈能力。(github.com) 看起来支持情感,但仅限英语,发现设置起来很困难。可能可以训练,但不清楚有多容易?
- collabora/WhisperSpeech: 一个通过反转Whisper构建的开源文本到语音系统。(github.com) 情感在路线图上,多种语言在路线图上,目前为英语、法语。商业使用没问题。
- speechbrain/speechbrain: 一个基于PyTorch的语音工具包 (github.com) 支持英语,但可以在其他语言中训练,不确定如何。
- suno-ai/bark: 🔊 文本提示生成音频模型 (github.com) 文本到音频,支持4种语言,无荷兰语情感
- mozilla/TTS: 🤖 用于文本到语音的深度学习 (讨论论坛: https://discourse.mozilla.org/c/tts) (github.com) 支持所有4种语言
- ICTNLP/Llama-3.1-8B-Omni · Hugging Face 新模型看起来不错,但仅限英语,无训练信息
- MycroftAI/mimic3-voices: Mimic 3文本到语音系统的语音模型 (github.com) 免费商业使用,支持所有4种语言,不确定情感和速度
- 2Noise/ChatTTS · Hugging Face - 免费商业使用,仅限英语,情感在路线图上
- 个人
- fishaudio/fish-speech-1.4 · Hugging Face 这看起来很完美,提示控制说话风格,但不是免费商业使用。需要检查成本。免费用于个人/研究用途。
讨论总结
本次讨论主要围绕文本到语音(TTS)系统的商业使用许可展开,特别是针对Coqui XTTS模型的商业使用问题。讨论中涉及了Coqui公司关闭后模型的使用权限、法律风险以及依赖性问题。此外,用户还分享了使用Piper TTS创建语音应用程序的经验,并讨论了如何在GPU上提高速度和调整语调。整体讨论氛围较为技术性,涉及多个TTS模型和工具的推荐与讨论。
主要观点
- 👍 Coqui XTTS模型不再允许商业使用
- 支持理由:Coqui公司已经关闭,无法再购买商业许可证。
- 反对声音:有人对公司未将模型放在Kickstarter上进行“告别巡演”感到惊讶。
- 🔥 无视许可证可能会带来法律后果
- 正方观点:无视许可证可能会导致罚款或诉讼。
- 反方观点:有人询问无视许可证的法律风险。
- 💡 使用推荐的Python版本(3.10)可以避免依赖性问题
- 解释:评论者分享了使用推荐Python版本的经验,避免依赖性问题。
- 👍 Piper TTS系统表现出色
- 支持理由:评论者推荐Piper TTS,并指出其需要更多工具支持。
- 🔥 Microsoft SpeechT5项目允许商业使用
- 正方观点:SpeechT5允许商业使用,但仅支持英语。
- 反方观点:没有风格控制功能。
金句与有趣评论
- “😂 Coqui XTTS model isn’t allowed for commercial use, and the company shutdown so you can’t buy commercial license anymore, only personal use is allowed.”
- 亮点:明确指出了Coqui XTTS模型的商业使用限制。
- “🤔 I’m surprised a company like this wouldn’t throw their model on Kickstarter as a farewell tour… if the community paid off their debts it can have it.”
- 亮点:对公司未将模型放在Kickstarter上进行“告别巡演”感到惊讶。
- “👀 lesson learned: use the recommended python version (3.10 according to documentation) or you will land in dependency hell!”
- 亮点:分享了使用推荐Python版本的经验,避免依赖性问题。
- “😂 Piper TTS 是 fabulous。”
- 亮点:评论者推荐Piper TTS,并指出其需要更多工具支持。
- “🤔 Microsoft T5 Commercial use allowed English only No style control”
- 亮点:简要说明了Microsoft SpeechT5项目的局限性。
情感分析
讨论的总体情感倾向较为中性,主要集中在技术讨论和法律风险上。主要分歧点在于Coqui XTTS模型的商业使用限制和公司关闭后的法律风险。可能的原因是用户对技术实现和法律合规性的关注。
趋势与预测
- 新兴话题:TTS系统的商业使用许可和法律风险可能会引发更多讨论。
- 潜在影响:对TTS系统的商业使用许可和法律风险的讨论可能会影响相关领域的技术选择和合规性。
详细内容:
标题:关于商业和个人可用的 TTS 系统的热门讨论
在 Reddit 上,有一则关于寻找商业和个人可用的 TTS 系统的帖子引起了广泛关注。该帖子获得了众多的点赞和大量的评论。原帖作者表示自己寻找了几天可用的 TTS 系统,并列出了一些候选,希望大家帮忙补充和纠正。作者期望系统能实时响应,处理英、法、德、荷四种语言,控制语音的情感和语调,最好能在 Nvidia 3080 上运行,以 LLAMA 3.1 8B 响应进行测试。作者提到目前看起来有希望的包括 coqui-ai、paraler-tts 和 Cosy Voice 等,并附上了相关链接。
讨论的焦点主要集中在各个 TTS 系统的商业使用许可、功能特点以及实际应用效果等方面。有人指出 Coqui XTTS 模型不允许商业使用,且公司已关闭,只能用于个人用途。有人惊讶于这样的公司没有在告别时将模型放到 Kickstarter 上让社区支持。还有人询问如果忽略一个已倒闭公司的许可会怎样,得到的回答是仍可能有法律后果。
有人分享了使用 Piper TTS 创建语音应用的经历,讨论了其在 GPU 上提高速度的可能性。也有人提到 Piper 的语音模型因商业原因并非免费使用。有人尝试在本地运行时,得到了要使用推荐的 Python 版本的经验。
对于 TTS 系统的选择和使用,大家各抒己见。但目前仍存在一些争议和不确定之处,比如某些系统的商业许可细节以及功能的实际表现等。这也促使更多的人参与讨论,希望能找到最适合自己需求的 TTS 系统。
感谢您的耐心阅读!来选个表情,或者留个评论吧!