原贴链接

嘿，r/LocalLLaMA社区！很高兴分享完全开源的AI语音合成工具Kokoro Web，你可以免费使用。没有付费墙，没有限制，只有高质量、本地友好的语音合成。为什么它很重要：100%开源：没有锁定功能，无需订阅；可自托管：在本地或自己的服务器上运行；与OpenAI API兼容：可直接替换用于AI项目；多语言支持：生成不同口音的语音；基于Kokoro v1.0构建：在语音合成竞技场（TTS Arena）中排名靠前的模型之一，仅次于ElevenLabs。快来试用：在线演示：https://voice - generator.pages.dev。自托管：通过Docker在几分钟内启动：https://github.com/eduardolat/kokoro - web。很想听听你的想法，欢迎反馈、贡献和建议！

讨论总结

该讨论围绕Kokoro Web这一开源免费的AI文本转语音工具展开。部分用户对Kokoro Web不能进行声音克隆、不能微调以及语言支持有限等不足提出看法，也有用户对其表示认可并提出功能扩展期望，如文档转音频、增加法语支持等，还有开发应用的用户询问其相关功能，整体讨论氛围较为理性客观。

主要观点

👍 Kokoro Web不能进行声音克隆和微调
- 支持理由：OC2608直接表明Kokoro doesn’t do voice cloning and you can’t finetune it either。
- 反对声音：无
🔥 Kokoro语言支持不足（如无德语支持）
- 正方观点：多位用户指出Kokoro在语言支持方面存在欠缺，如评论者提到Too bad Kokoro has no German support。
- 反方观点：无
💡 XTTSv2在微调功能方面很棒
- 解释：CheatCodesOfLife表示XTTSv2 is still amazing if you finetune。
🤔 Llasa - 3b总体比xttsv2好
- 解释：CheatCodesOfLife觉得llasa - 3b总体比xttsv2好，因为<15 seconds of audio to copy the voice and it seems to do emotions better。
😕 Kokoro Web不支持流式输出
- 解释：原作者回复正在开发语音到语音应用程序的用户，Kokoro web不支持流式输出。

金句与有趣评论

“😂 Good job!”
- 亮点：简洁地表达了对Kokoro Web开发者的认可。
“🤔 Too bad Kokoro has no German support”
- 亮点：直接指出Kokoro的不足，即缺乏德语支持。
“👀 XTTSv2 is still amazing if you finetune”
- 亮点：强调了XTTSv2在微调方面的优势。
“😎 I’m finding llasa - 3b to be better than xttsv2 overall. <15 seconds of audio to copy the voice and it seems to do emotions better.”
- 亮点：详细对比了Llasa - 3b和xttsv2，给出了Llasa - 3b更好的理由。
“🤨 I want to use a streaming voice - to - text service that is closer to the real - time nature of Google Voice - to - Text on the device.”
- 亮点：表达了对更实时的语音到文本服务的需求。

情感分析

总体情感倾向较为中性。主要分歧点在于对Kokoro Web功能的看法，部分用户认可该工具，但也有用户指出其存在声音克隆、语言支持、不支持流式输出等方面的不足。原因是不同用户有不同的需求，如开发应用的用户需要流式输出功能，需要德语支持的用户就会对Kokoro无德语支持不满。

趋势与预测

新兴话题：对Kokoro Web功能扩展的探讨，如添加文档转音频功能、增加语言支持等可能会引发后续讨论。
潜在影响：如果Kokoro Web能够根据用户需求进行功能改进，可能会在开源AI文本转语音领域吸引更多用户，推动相关技术在更多应用场景的使用。

详细内容：

标题：免费开源的 AI 文本转语音工具 Kokoro Web v0.1.0 引发热议

近日，在 Reddit 上一个关于“Kokoro Web v0.1.0”的帖子引起了众多网友的关注。该帖子介绍了这一完全开源且免费使用的 AI 文本转语音工具，获得了大量的点赞和众多评论。

帖子主要指出，Kokoro Web 具有 100%开源、可自托管、与 OpenAI API 兼容、多语言支持等优势，并且基于在TTS Arena中排名靠前的 Kokoro v1.0 模型。同时，还提供了现场演示链接https://voice-generator.pages.dev以及使用 Docker 进行自托管的链接GitHub。

讨论焦点与观点分析：

有人指出 Kokoro 不支持语音克隆，也不能进行微调。比如[OC2608]称：“Kokoro 不支持语音克隆，也不能进行微调。”

也有人认为 Kokoro 虽然存在不足，但仍是一个超轻量级的高质量文本转语音选择。例如[Foreign - Beginning - 49]表示：“Kokoro 不支持语音克隆，但它是一个超轻量级的高质量文本转语音选项。”

有人觉得语言支持有限是个问题，像[Blizado]说：“它只有英语和中文，我没理由使用它。我需要一个支持德语且能微调的工具，所以我仍在使用 XTTSv2。”

还有人分享了自己对其他相关工具的使用体验，比如[CheatCodesOfLife]提到：“XTTSv2 微调后仍然很棒。不过最近我一直在使用 Llasa。不确定它是否支持德语。”

对于不同工具的比较，[Zc5Gwu]问道：“Kokoro 与 Piper 相比如何？”[OC2608]回答：“Piper 允许您使用自己的语音数据微调检查点。它支持更多语言，而且也很轻量。唯一的缺点是它基于目前较旧的 VITS。”

有人询问是否会增加新功能，如[getgoingfast]问道：“做得好！您是否计划添加上传文档文件转音频的功能？”

有人关心语言支持扩展，如[Whiplashorus]问：“您认为接下来会支持法语吗？”

有人提出关于实时流方面的疑问，像[texasdude11]说：“我正在尝试制作一个语音转语音的应用程序，我认为我可以使用这个。如果我使用您的 Docker 镜像，它是否支持流语音输出？类似于我们可以使用 Olama 进行 LLMS 的流文本输出？在生成时能否实时流输出，而不是下载整个 MP3 文件然后再播放……您对实时的语音转文本有什么建议吗？我开发了一种使用 Silero VAD 然后将我的音频发送到 Whisper 进行转录的方法。但我想使用更实时的东西。类似于设备上的 Google 语音转文本的工作方式。是否有可用的流语音转文本服务？我对流服务更感兴趣。”而[EduardoDevop]回复称 Kokoro Web 不支持流。

在讨论中，大家对于 Kokoro Web 的功能、语言支持、与其他工具的比较等方面存在不同的看法。虽然有人对其目前的功能表示一定的遗憾，但也有人对其开源和免费的特点表示赞赏。

总之，关于 Kokoro Web 的讨论展示了大家对文本转语音工具的关注和期待，也反映了用户对于功能多样性和语言支持的需求。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#