原贴链接

大家好!我最近在做kokoro - onnx包,这是一个基于onnxruntime构建的TTS(文本到语音)系统,基于新的kokoro模型(https://huggingface.co/hexgrad/Kokoro - 82M)。这个模型非常酷,包含多种声音,还有类似于Eleven Labs的低语功能。它在macOS M1上的运行速度比实时速度快。这个包支持Linux、Windows、macOS x86 - 64和arm64。你可以在https://github.com/thewh1teagle/kokoro - onnx找到这个包。演示:正在处理视频i6l455b0i3be1…

讨论总结

这个讨论围绕kokoro - onnx TTS展开。包括对模型功能改进的期望,如微调功能和支持GPU/CUDA;对运行速度在不同系统上的反馈;对安装说明、网页界面等使用相关方面的需求;也有对这个模型优势的探讨,像它是小模型且质量不错等,整体氛围积极。

主要观点

  1. 👍 希望kokoro模型可微调,现有语音选择局限
    • 支持理由:可以突破语音包声音的限制
    • 反对声音:无
  2. 🔥 kokoro - onnx在Windows上运行速度慢
    • 正方观点:评论者亲自体验速度慢
    • 反方观点:无
  3. 💡 认为应提供更详细的安装说明并希望有网页用户界面
    • 支持理由:新手使用有需求
    • 反对声音:无
  4. 👍 kokoro - onnx是家庭实验室使用的理想TTS
    • 支持理由:相比其他项目有优势,长文本处理表现较好
    • 反对声音:无
  5. 🔥 希望有人制作kokoro - onnx相关的docker或docker compose
    • 正方观点:方便使用
    • 反方观点:无

金句与有趣评论

  1. “😂 I wish this kokoro model could be finetuned because youre limited to only the voices from the voice pack.”
    • 亮点:直接指出模型的局限并提出期望的改进方向
  2. “🤔 Nice! I was just thinking how nice it would be to see more open source TTS out there.”
    • 亮点:表达对开源TTS项目的期待,侧面反映这个项目的价值
  3. “👀 Works well on Windows but is slow. It would be great if it could support GPU/CUDA”
    • 亮点:明确指出在Windows上的运行情况并提出功能需求
  4. “😂 kokoro - onnx is now my favorite TTS for homelab use.”
    • 亮点:表明对kokoro - onnx在家庭实验室使用的喜爱
  5. “🤔 It would be cool if someone made a docker/docker compose for this”
    • 亮点:提出对项目方便使用的建设性想法

情感分析

总体情感倾向是积极的。主要分歧点较少,部分观点只是对项目提出改进方向。积极的原因是很多评论者认可项目的价值,如在小模型方面的成果,在不同系统上的运行情况等;提出改进方向也是为了项目更好发展。

趋势与预测

  • 新兴话题:可能会有更多关于如何与其他项目连接(如PipeCat)的讨论。
  • 潜在影响:如果功能改进的需求被满足,可能会让这个TTS项目在相关领域更具竞争力,吸引更多用户使用。

详细内容:

标题:关于 kokoro-onnx TTS 的热门讨论

最近,Reddit 上出现了一个关于 kokoro-onnx TTS 的热门帖子,引发了众多用户的关注和热烈讨论。此帖介绍了这个基于新 kokoro 模型构建的文本转语音系统,点赞数众多,评论也十分活跃。

帖子中提到,kokoro-onnx 模型很酷,具有多种声音,包括类似 Eleven Labs 的低语功能,在 macOS M1 上运行速度超过实时,且支持多种操作系统。同时还提供了相关的链接,如模型链接https://huggingface.co/hexgrad/Kokoro-82M和软件包链接https://github.com/thewh1teagle/kokoro-onnx

讨论的焦点主要集中在以下几个方面: 有人希望 kokoro 模型能够进行微调,因为目前只能使用语音包中的声音。有人称赞这是一个很棒的开源 TTS 系统,也有人提出在 Windows 上运行效果不错但速度较慢,希望能支持 GPU/CUDA。还有人认为在 CPU 上运行速度已经很快,有人提到能否增加更详细的安装说明和 Web-UI。

有人分享道:“我之前尝试过 f5、fish、mars5、parler、voicecraft 和 coqui,成果参差不齐。这些项目似乎更难设置,需要将输入分块为短片段,并且/或者需要后处理来消除停顿等。”

有人指出:“在 3090TI 上,使用 2364MiB(<3GB)VRAM(根据nvtop),40 秒生成 980 秒的输出文本(1.0 速度),几乎是 25 倍实时生成速度;在 CPU(Ryzen 9950X 加上超频 RAM,内存 I/O 带宽接近~90GB/s)上,根据btop大约使用 2GB RAM,86 秒生成 980 秒的输出文本(1.0 速度),大约是 11 倍实时生成速度(在一个快速稍微超频的 CPU 上),据传闻其他人可能期望 4 - 5 倍。”

讨论中存在一些共识,比如大家普遍对这个新的 TTS 系统表现出兴趣,同时也期待它能够不断完善和优化。一些独特的观点如有人认为 kokoro-onnx 是自己用于家庭实验室最喜欢的 TTS,丰富了讨论的内容。

总的来说,kokoro-onnx TTS 系统在 Reddit 上引起了广泛关注和深入讨论,大家对其未来的发展充满期待。