原贴链接

我大概一周前开始试用这个模型,它的表现非常棒,但我在这里没看到任何关于它的帖子,所以我想也许该我来分享一下了。

Zonos仅需8GB显存就能运行,可以将任何文本转换为语音。它还可以使用10到30秒的音频片段克隆声音。以我有限的试用经验来看,效果很令人信服,特别是如果花时间精心挑选样本的话(我推荐Ocenaudio,这是一个对新手友好的音频编辑器)。

通过Docker(如果你使用Linux的话,你应该用Linux,顺便说一下我就在用)安装和运行是非常容易的。

首先,安装唯一特殊的依赖项: apt install -y espeak - ng

然后,我没有按照作者建议的运行uv,而是采用了更简单的[Docker安装](https://huggingface.co/Zyphra/Zonos - v0.1 - hybrid#docker - installation)说明,包括:

  • 克隆仓库
  • 在克隆的目录内运行’docker compose up'
  • 在浏览器中指向http://0.0.0.0:7860/以打开用户界面
  • 完成后不要忘记运行’docker compose down'

哦,天哪,这个模型太棒了!

模型在这里: [Zonos Transformer](https://huggingface.co/Zyphra/Zonos - v0.1 - transformer)。

还有一个[混合模型](https://huggingface.co/Zyphra/Zonos - v0.1 - hybrid)。我不确定它们之间的区别,没有详细说明,所以我自己只用了Transformer模型。

如果你使用Windows……我不确定该告诉你什么。作者直接说目前不支持Windows,但总有虚拟机之类的方法。也许有人可以提供一个解决方案。

希望有人觉得这有用或者有趣!

编辑:这里有一个示例,是我用默认设置快速制作的。

讨论总结

原帖介绍了Zonos这个文本到语音模型的基本情况、运行条件和使用体验。评论涵盖了多个方面,如模型在非英语语言方面的局限、与其他模型的比较、在不同系统(如Windows、Linux、Apple Silicon)上的运行情况、遇到的技术问题及解决方法、对模型功能的期待等。整体氛围积极,大家都在分享自己的使用经验或者寻求解决方案。

主要观点

  1. 👍 Zonos模型因使用espeak进行音素化而不利于非英语语言
    • 支持理由:它在处理非英语语言时表现不佳。
    • 反对声音:无。
  2. 🔥 Zonos可能是ElevenLabs的替代者
    • 正方观点:使用DeepInfra进行推理时,Zonos成本低且质量与ElevenLabs相近。
    • 反方观点:Zonos在处理较长文本时有问题。
  3. 💡 在Windows系统的Docker中使用Zonos模型需要调整yaml文件
    • 解释:如移除特定内容并添加端口等操作才能让模型工作。
  4. 💡 原帖未提及Windows下的使用方法且模型目前不支持Windows,但有适用于Windows的Github分支
    • 解释:补充了原帖在Windows使用方面的缺失,为想在Windows使用的用户提供了新途径。
  5. 💡 对新模型中的语音克隆功能兴趣不大,更关注语音生成功能
    • 解释:想拥有不错的语音,但对克隆他人声音不感兴趣,考虑能否混合样本以得到想要的语音。

金句与有趣评论

  1. “😂 HarambeTenSei:It uses espeak for phonemization which is why it sucks for non English languages”
    • 亮点:直接指出Zonos模型在非英语语言处理上的问题根源。
  2. “🤔 goingsplit:its funny how it’s 2025 and there is still no robust open source solution to multilingual TTS”
    • 亮点:反映出多语言TTS开源解决方案的现状。
  3. “👀 这可能是我一直在等待的ElevenLabs杀手。”
    • 亮点:强调了Zonos模型相对于ElevenLabs的竞争力。
  4. “😂 我’d说它的音频清晰度是目前最好的,但音频的节奏感觉不对,与Kokoro(它也是60倍实时速度而不是2倍实时速度)相比。”
    • 亮点:对比Zonos和Kokoro在音频方面的优劣。
  5. “🤔 I’ve only used Kokoro 82M, which is great for streaming, but has a limited selection of voices.”
    • 亮点:分享个人使用Kokoro 82M的体验。

情感分析

总体情感倾向是积极的,大多数评论者都在积极探讨Zonos模型的使用、改进和与其他模型的比较。主要分歧点在于Zonos模型的性能方面,如在非英语语言处理上的不足、与其他模型相比的优势和劣势等。可能的原因是大家从不同的使用需求和场景出发,对模型有不同的期望和体验。

趋势与预测

  • 新兴话题:将模型应用到移动设备(iPad和安卓手机)的可能性。
  • 潜在影响:如果能够解决目前存在的技术问题并不断改进,Zonos模型可能会在语音合成领域占据一定的市场份额,推动语音克隆和语音生成技术的发展。

详细内容:

标题:Zonos——一款引发热议的文本转语音模型

最近,Reddit 上一个关于文本转语音模型 Zonos 的帖子引起了广泛关注。该帖子介绍了 Zonos 模型的出色表现,它只需 8GB VRAM 就能将任何文本转换为音频语音,还能通过 10 至 30 秒的片段克隆声音。此帖获得了众多点赞和大量评论。

主要的讨论方向集中在 Zonos 模型的性能、多语言支持、与其他类似模型的比较、在不同操作系统上的运行情况等。核心的争议点在于 Zonos 模型在非英语语言和口音处理上的表现,以及与其他知名模型的优劣对比。

有人指出,Zonos 使用 espeak 进行音素化,导致其在非英语语言上表现不佳。但也有人认为它在某些方面具有优势,比如价格相对便宜。有用户分享道:“作为一名在技术领域探索的人,我摆弄了大约一个小时,摆弄了所有的滑块,但效果并不好。它甚至不在与 ElevenLabs 相同的水平上。它不能很好地理解句子的自然流向,通常在错误的时间升调或降调。它还会在语音中添加随机停顿,这些停顿有时似乎是由我设置的‘快乐’或‘悲伤’滑块控制的。对我来说,这些都不足以让我把它发给一个非人工智能的人并让他们印象深刻。”

关于多语言支持,有人认为目前还没有强大的开源多语言解决方案,而有人则对未来充满期待,认为随着研究的深入,这一问题会得到解决。

在个人经历分享方面,有用户表示自己在 WSL 上使用 Zonos 时,花了不少时间克服 30 秒输出限制的问题,通过对文本进行简单分块的方式取得了一定效果。

对于 Zonos 模型在不同操作系统上的运行,Windows 用户在设置方面遇到了一些困难,但也有人通过 WSL 成功运行。同时,也有人对在 Ubuntu 中通过 Windows Powershell 运行 Zonos 提出了疑问,并得到了相关解答。

总之,关于 Zonos 模型的讨论展现了大家对新技术的关注和思考,也反映了其在实际应用中面临的挑战和机遇。