原贴链接

我大概一周前开始试用这个模型，它的表现非常棒，但我在这里没看到任何关于它的帖子，所以我想也许该我来分享一下了。

Zonos仅需8GB显存就能运行，可以将任何文本转换为语音。它还可以使用10到30秒的音频片段克隆声音。以我有限的试用经验来看，效果很令人信服，特别是如果花时间精心挑选样本的话（我推荐Ocenaudio，这是一个对新手友好的音频编辑器）。

通过Docker（如果你使用Linux的话，你应该用Linux，顺便说一下我就在用）安装和运行是非常容易的。

首先，安装唯一特殊的依赖项： apt install -y espeak - ng

然后，我没有按照作者建议的运行uv，而是采用了更简单的[Docker安装](https://huggingface.co/Zyphra/Zonos - v0.1 - hybrid#docker - installation)说明，包括：

克隆仓库
在克隆的目录内运行’docker compose up'
在浏览器中指向http://0.0.0.0:7860/以打开用户界面
完成后不要忘记运行’docker compose down'

哦，天哪，这个模型太棒了！

模型在这里： [Zonos Transformer](https://huggingface.co/Zyphra/Zonos - v0.1 - transformer)。

还有一个[混合模型](https://huggingface.co/Zyphra/Zonos - v0.1 - hybrid)。我不确定它们之间的区别，没有详细说明，所以我自己只用了Transformer模型。

如果你使用Windows……我不确定该告诉你什么。作者直接说目前不支持Windows，但总有虚拟机之类的方法。也许有人可以提供一个解决方案。

希望有人觉得这有用或者有趣！

编辑：这里有一个示例，是我用默认设置快速制作的。

讨论总结

原帖介绍了Zonos这个文本到语音模型的基本情况、运行条件和使用体验。评论涵盖了多个方面，如模型在非英语语言方面的局限、与其他模型的比较、在不同系统（如Windows、Linux、Apple Silicon）上的运行情况、遇到的技术问题及解决方法、对模型功能的期待等。整体氛围积极，大家都在分享自己的使用经验或者寻求解决方案。

主要观点

👍 Zonos模型因使用espeak进行音素化而不利于非英语语言
- 支持理由：它在处理非英语语言时表现不佳。
- 反对声音：无。
🔥 Zonos可能是ElevenLabs的替代者
- 正方观点：使用DeepInfra进行推理时，Zonos成本低且质量与ElevenLabs相近。
- 反方观点：Zonos在处理较长文本时有问题。
💡 在Windows系统的Docker中使用Zonos模型需要调整yaml文件
- 解释：如移除特定内容并添加端口等操作才能让模型工作。
💡 原帖未提及Windows下的使用方法且模型目前不支持Windows，但有适用于Windows的Github分支
- 解释：补充了原帖在Windows使用方面的缺失，为想在Windows使用的用户提供了新途径。
💡 对新模型中的语音克隆功能兴趣不大，更关注语音生成功能
- 解释：想拥有不错的语音，但对克隆他人声音不感兴趣，考虑能否混合样本以得到想要的语音。

金句与有趣评论

“😂 HarambeTenSei：It uses espeak for phonemization which is why it sucks for non English languages”
- 亮点：直接指出Zonos模型在非英语语言处理上的问题根源。
“🤔 goingsplit：its funny how it’s 2025 and there is still no robust open source solution to multilingual TTS”
- 亮点：反映出多语言TTS开源解决方案的现状。
“👀 这可能是我一直在等待的ElevenLabs杀手。”
- 亮点：强调了Zonos模型相对于ElevenLabs的竞争力。
“😂 我’d说它的音频清晰度是目前最好的，但音频的节奏感觉不对，与Kokoro（它也是60倍实时速度而不是2倍实时速度）相比。”
- 亮点：对比Zonos和Kokoro在音频方面的优劣。
“🤔 I’ve only used Kokoro 82M, which is great for streaming, but has a limited selection of voices.”
- 亮点：分享个人使用Kokoro 82M的体验。

情感分析

总体情感倾向是积极的，大多数评论者都在积极探讨Zonos模型的使用、改进和与其他模型的比较。主要分歧点在于Zonos模型的性能方面，如在非英语语言处理上的不足、与其他模型相比的优势和劣势等。可能的原因是大家从不同的使用需求和场景出发，对模型有不同的期望和体验。

趋势与预测

新兴话题：将模型应用到移动设备（iPad和安卓手机）的可能性。
潜在影响：如果能够解决目前存在的技术问题并不断改进，Zonos模型可能会在语音合成领域占据一定的市场份额，推动语音克隆和语音生成技术的发展。

详细内容：

标题：Zonos——一款引发热议的文本转语音模型

最近，Reddit 上一个关于文本转语音模型 Zonos 的帖子引起了广泛关注。该帖子介绍了 Zonos 模型的出色表现，它只需 8GB VRAM 就能将任何文本转换为音频语音，还能通过 10 至 30 秒的片段克隆声音。此帖获得了众多点赞和大量评论。

主要的讨论方向集中在 Zonos 模型的性能、多语言支持、与其他类似模型的比较、在不同操作系统上的运行情况等。核心的争议点在于 Zonos 模型在非英语语言和口音处理上的表现，以及与其他知名模型的优劣对比。

有人指出，Zonos 使用 espeak 进行音素化，导致其在非英语语言上表现不佳。但也有人认为它在某些方面具有优势，比如价格相对便宜。有用户分享道：“作为一名在技术领域探索的人，我摆弄了大约一个小时，摆弄了所有的滑块，但效果并不好。它甚至不在与 ElevenLabs 相同的水平上。它不能很好地理解句子的自然流向，通常在错误的时间升调或降调。它还会在语音中添加随机停顿，这些停顿有时似乎是由我设置的‘快乐’或‘悲伤’滑块控制的。对我来说，这些都不足以让我把它发给一个非人工智能的人并让他们印象深刻。”

关于多语言支持，有人认为目前还没有强大的开源多语言解决方案，而有人则对未来充满期待，认为随着研究的深入，这一问题会得到解决。

在个人经历分享方面，有用户表示自己在 WSL 上使用 Zonos 时，花了不少时间克服 30 秒输出限制的问题，通过对文本进行简单分块的方式取得了一定效果。

对于 Zonos 模型在不同操作系统上的运行，Windows 用户在设置方面遇到了一些困难，但也有人通过 WSL 成功运行。同时，也有人对在 Ubuntu 中通过 Windows Powershell 运行 Zonos 提出了疑问，并得到了相关解答。

总之，关于 Zonos 模型的讨论展现了大家对新技术的关注和思考，也反映了其在实际应用中面临的挑战和机遇。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#