嘿,r/LocalLLaMA社区!很高兴分享完全开源的AI语音合成工具Kokoro Web,你可以免费使用。没有付费墙,没有限制,只有高质量、本地友好的语音合成。为什么它很重要:100%开源:没有锁定功能,无需订阅;可自托管:在本地或自己的服务器上运行;与OpenAI API兼容:可直接替换用于AI项目;多语言支持:生成不同口音的语音;基于Kokoro v1.0构建:在语音合成竞技场(TTS Arena)中排名靠前的模型之一,仅次于ElevenLabs。快来试用:在线演示:https://voice - generator.pages.dev。自托管:通过Docker在几分钟内启动:https://github.com/eduardolat/kokoro - web。很想听听你的想法,欢迎反馈、贡献和建议!
讨论总结
该讨论围绕Kokoro Web这一开源免费的AI文本转语音工具展开。部分用户对Kokoro Web不能进行声音克隆、不能微调以及语言支持有限等不足提出看法,也有用户对其表示认可并提出功能扩展期望,如文档转音频、增加法语支持等,还有开发应用的用户询问其相关功能,整体讨论氛围较为理性客观。
主要观点
- 👍 Kokoro Web不能进行声音克隆和微调
- 支持理由:OC2608直接表明Kokoro doesn’t do voice cloning and you can’t finetune it either。
- 反对声音:无
- 🔥 Kokoro语言支持不足(如无德语支持)
- 正方观点:多位用户指出Kokoro在语言支持方面存在欠缺,如评论者提到Too bad Kokoro has no German support。
- 反方观点:无
- 💡 XTTSv2在微调功能方面很棒
- 解释:CheatCodesOfLife表示XTTSv2 is still amazing if you finetune。
- 🤔 Llasa - 3b总体比xttsv2好
- 解释:CheatCodesOfLife觉得llasa - 3b总体比xttsv2好,因为<15 seconds of audio to copy the voice and it seems to do emotions better。
- 😕 Kokoro Web不支持流式输出
- 解释:原作者回复正在开发语音到语音应用程序的用户,Kokoro web不支持流式输出。
金句与有趣评论
- “😂 Good job!”
- 亮点:简洁地表达了对Kokoro Web开发者的认可。
- “🤔 Too bad Kokoro has no German support”
- 亮点:直接指出Kokoro的不足,即缺乏德语支持。
- “👀 XTTSv2 is still amazing if you finetune”
- 亮点:强调了XTTSv2在微调方面的优势。
- “😎 I’m finding llasa - 3b to be better than xttsv2 overall. <15 seconds of audio to copy the voice and it seems to do emotions better.”
- 亮点:详细对比了Llasa - 3b和xttsv2,给出了Llasa - 3b更好的理由。
- “🤨 I want to use a streaming voice - to - text service that is closer to the real - time nature of Google Voice - to - Text on the device.”
- 亮点:表达了对更实时的语音到文本服务的需求。
情感分析
总体情感倾向较为中性。主要分歧点在于对Kokoro Web功能的看法,部分用户认可该工具,但也有用户指出其存在声音克隆、语言支持、不支持流式输出等方面的不足。原因是不同用户有不同的需求,如开发应用的用户需要流式输出功能,需要德语支持的用户就会对Kokoro无德语支持不满。
趋势与预测
- 新兴话题:对Kokoro Web功能扩展的探讨,如添加文档转音频功能、增加语言支持等可能会引发后续讨论。
- 潜在影响:如果Kokoro Web能够根据用户需求进行功能改进,可能会在开源AI文本转语音领域吸引更多用户,推动相关技术在更多应用场景的使用。
详细内容:
标题:免费开源的 AI 文本转语音工具 Kokoro Web v0.1.0 引发热议
近日,在 Reddit 上一个关于“Kokoro Web v0.1.0”的帖子引起了众多网友的关注。该帖子介绍了这一完全开源且免费使用的 AI 文本转语音工具,获得了大量的点赞和众多评论。
帖子主要指出,Kokoro Web 具有 100%开源、可自托管、与 OpenAI API 兼容、多语言支持等优势,并且基于在TTS Arena中排名靠前的 Kokoro v1.0 模型。同时,还提供了现场演示链接https://voice-generator.pages.dev以及使用 Docker 进行自托管的链接GitHub。
讨论焦点与观点分析:
有人指出 Kokoro 不支持语音克隆,也不能进行微调。比如[OC2608]称:“Kokoro 不支持语音克隆,也不能进行微调。”
也有人认为 Kokoro 虽然存在不足,但仍是一个超轻量级的高质量文本转语音选择。例如[Foreign - Beginning - 49]表示:“Kokoro 不支持语音克隆,但它是一个超轻量级的高质量文本转语音选项。”
有人觉得语言支持有限是个问题,像[Blizado]说:“它只有英语和中文,我没理由使用它。我需要一个支持德语且能微调的工具,所以我仍在使用 XTTSv2。”
还有人分享了自己对其他相关工具的使用体验,比如[CheatCodesOfLife]提到:“XTTSv2 微调后仍然很棒。不过最近我一直在使用 Llasa。不确定它是否支持德语。”
对于不同工具的比较,[Zc5Gwu]问道:“Kokoro 与 Piper 相比如何?”[OC2608]回答:“Piper 允许您使用自己的语音数据微调检查点。它支持更多语言,而且也很轻量。唯一的缺点是它基于目前较旧的 VITS。”
有人询问是否会增加新功能,如[getgoingfast]问道:“做得好!您是否计划添加上传文档文件转音频的功能?”
有人关心语言支持扩展,如[Whiplashorus]问:“您认为接下来会支持法语吗?”
有人提出关于实时流方面的疑问,像[texasdude11]说:“我正在尝试制作一个语音转语音的应用程序,我认为我可以使用这个。如果我使用您的 Docker 镜像,它是否支持流语音输出?类似于我们可以使用 Olama 进行 LLMS 的流文本输出?在生成时能否实时流输出,而不是下载整个 MP3 文件然后再播放……您对实时的语音转文本有什么建议吗?我开发了一种使用 Silero VAD 然后将我的音频发送到 Whisper 进行转录的方法。但我想使用更实时的东西。类似于设备上的 Google 语音转文本的工作方式。是否有可用的流语音转文本服务?我对流服务更感兴趣。”而[EduardoDevop]回复称 Kokoro Web 不支持流。
在讨论中,大家对于 Kokoro Web 的功能、语言支持、与其他工具的比较等方面存在不同的看法。虽然有人对其目前的功能表示一定的遗憾,但也有人对其开源和免费的特点表示赞赏。
总之,关于 Kokoro Web 的讨论展示了大家对文本转语音工具的关注和期待,也反映了用户对于功能多样性和语言支持的需求。
感谢您的耐心阅读!来选个表情,或者留个评论吧!