我大概一周前开始试用这个模型,它的表现非常棒,但我在这里没看到任何关于它的帖子,所以我想也许该我来分享一下了。
Zonos仅需8GB显存就能运行,可以将任何文本转换为语音。它还可以使用10到30秒的音频片段克隆声音。以我有限的试用经验来看,效果很令人信服,特别是如果花时间精心挑选样本的话(我推荐Ocenaudio,这是一个对新手友好的音频编辑器)。
通过Docker(如果你使用Linux的话,你应该用Linux,顺便说一下我就在用)安装和运行是非常容易的。
首先,安装唯一特殊的依赖项: apt install -y espeak - ng
然后,我没有按照作者建议的运行uv,而是采用了更简单的[Docker安装](https://huggingface.co/Zyphra/Zonos - v0.1 - hybrid#docker - installation)说明,包括:
- 克隆仓库
- 在克隆的目录内运行’docker compose up'
- 在浏览器中指向http://0.0.0.0:7860/以打开用户界面
- 完成后不要忘记运行’docker compose down'
哦,天哪,这个模型太棒了!
模型在这里: [Zonos Transformer](https://huggingface.co/Zyphra/Zonos - v0.1 - transformer)。
还有一个[混合模型](https://huggingface.co/Zyphra/Zonos - v0.1 - hybrid)。我不确定它们之间的区别,没有详细说明,所以我自己只用了Transformer模型。
如果你使用Windows……我不确定该告诉你什么。作者直接说目前不支持Windows,但总有虚拟机之类的方法。也许有人可以提供一个解决方案。
希望有人觉得这有用或者有趣!
编辑:这里有一个示例,是我用默认设置快速制作的。
讨论总结
原帖介绍了Zonos这个文本到语音模型的基本情况、运行条件和使用体验。评论涵盖了多个方面,如模型在非英语语言方面的局限、与其他模型的比较、在不同系统(如Windows、Linux、Apple Silicon)上的运行情况、遇到的技术问题及解决方法、对模型功能的期待等。整体氛围积极,大家都在分享自己的使用经验或者寻求解决方案。
主要观点
- 👍 Zonos模型因使用espeak进行音素化而不利于非英语语言
- 支持理由:它在处理非英语语言时表现不佳。
- 反对声音:无。
- 🔥 Zonos可能是ElevenLabs的替代者
- 正方观点:使用DeepInfra进行推理时,Zonos成本低且质量与ElevenLabs相近。
- 反方观点:Zonos在处理较长文本时有问题。
- 💡 在Windows系统的Docker中使用Zonos模型需要调整yaml文件
- 解释:如移除特定内容并添加端口等操作才能让模型工作。
- 💡 原帖未提及Windows下的使用方法且模型目前不支持Windows,但有适用于Windows的Github分支
- 解释:补充了原帖在Windows使用方面的缺失,为想在Windows使用的用户提供了新途径。
- 💡 对新模型中的语音克隆功能兴趣不大,更关注语音生成功能
- 解释:想拥有不错的语音,但对克隆他人声音不感兴趣,考虑能否混合样本以得到想要的语音。
金句与有趣评论
- “😂 HarambeTenSei:It uses espeak for phonemization which is why it sucks for non English languages”
- 亮点:直接指出Zonos模型在非英语语言处理上的问题根源。
- “🤔 goingsplit:its funny how it’s 2025 and there is still no robust open source solution to multilingual TTS”
- 亮点:反映出多语言TTS开源解决方案的现状。
- “👀 这可能是我一直在等待的ElevenLabs杀手。”
- 亮点:强调了Zonos模型相对于ElevenLabs的竞争力。
- “😂 我’d说它的音频清晰度是目前最好的,但音频的节奏感觉不对,与Kokoro(它也是60倍实时速度而不是2倍实时速度)相比。”
- 亮点:对比Zonos和Kokoro在音频方面的优劣。
- “🤔 I’ve only used Kokoro 82M, which is great for streaming, but has a limited selection of voices.”
- 亮点:分享个人使用Kokoro 82M的体验。
情感分析
总体情感倾向是积极的,大多数评论者都在积极探讨Zonos模型的使用、改进和与其他模型的比较。主要分歧点在于Zonos模型的性能方面,如在非英语语言处理上的不足、与其他模型相比的优势和劣势等。可能的原因是大家从不同的使用需求和场景出发,对模型有不同的期望和体验。
趋势与预测
- 新兴话题:将模型应用到移动设备(iPad和安卓手机)的可能性。
- 潜在影响:如果能够解决目前存在的技术问题并不断改进,Zonos模型可能会在语音合成领域占据一定的市场份额,推动语音克隆和语音生成技术的发展。
详细内容:
标题:Zonos——一款引发热议的文本转语音模型
最近,Reddit 上一个关于文本转语音模型 Zonos 的帖子引起了广泛关注。该帖子介绍了 Zonos 模型的出色表现,它只需 8GB VRAM 就能将任何文本转换为音频语音,还能通过 10 至 30 秒的片段克隆声音。此帖获得了众多点赞和大量评论。
主要的讨论方向集中在 Zonos 模型的性能、多语言支持、与其他类似模型的比较、在不同操作系统上的运行情况等。核心的争议点在于 Zonos 模型在非英语语言和口音处理上的表现,以及与其他知名模型的优劣对比。
有人指出,Zonos 使用 espeak 进行音素化,导致其在非英语语言上表现不佳。但也有人认为它在某些方面具有优势,比如价格相对便宜。有用户分享道:“作为一名在技术领域探索的人,我摆弄了大约一个小时,摆弄了所有的滑块,但效果并不好。它甚至不在与 ElevenLabs 相同的水平上。它不能很好地理解句子的自然流向,通常在错误的时间升调或降调。它还会在语音中添加随机停顿,这些停顿有时似乎是由我设置的‘快乐’或‘悲伤’滑块控制的。对我来说,这些都不足以让我把它发给一个非人工智能的人并让他们印象深刻。”
关于多语言支持,有人认为目前还没有强大的开源多语言解决方案,而有人则对未来充满期待,认为随着研究的深入,这一问题会得到解决。
在个人经历分享方面,有用户表示自己在 WSL 上使用 Zonos 时,花了不少时间克服 30 秒输出限制的问题,通过对文本进行简单分块的方式取得了一定效果。
对于 Zonos 模型在不同操作系统上的运行,Windows 用户在设置方面遇到了一些困难,但也有人通过 WSL 成功运行。同时,也有人对在 Ubuntu 中通过 Windows Powershell 运行 Zonos 提出了疑问,并得到了相关解答。
总之,关于 Zonos 模型的讨论展现了大家对新技术的关注和思考,也反映了其在实际应用中面临的挑战和机遇。
感谢您的耐心阅读!来选个表情,或者留个评论吧!