嗨,LocalLLaMA,我是一名TTS模型训练师,也是美国公民。上个月,我发出了一个征集合成训练数据的呼吁(https://huggingface.co/posts/hexgrad/418806998707773),这个呼吁得到了超过一百小时多种语言的音频回应,之后得到的模型[Kokoro - 82M](https://huggingface.co/hexgrad/Kokoro-82M)已经升级/交付。到处都是满意的客户。
当前这个模型主要擅长朗读长文本,有一些明显的局限性,特别是在短文本上。它也被描述为相对平淡且没有情感。然而,由于人们疯狂点赞,它目前是Hugging Face上最受欢迎的[TTS模型](https://huggingface.co/models?pipeline_tag=text - to - speech&sort = likes)和[TTS空间](https://huggingface.co/spaces?sort = likes&search = tts)。
现在,我正在考虑再次征集众包数据,不过这次只专注于ChatGPT高级语音模式的文本/音频对,可能仅为英语,涵盖人们能从其中激发出来的任何情感。如果成功的话,在相同规模等级内可能会得到一个更好的对话模型,尽管在语音和语言方面会更受限。
有很多事情需要考虑:
- 最高优先级将给予ChatGPT的付费用户(20美元和200美元的),但实际上免费的AVM音频可能也会被接受。这是因为付费用户最不可能使用量化和/或提炼过的AVM产品。
- 理想情况下,我可以最大限度地开源任何源自AVM数据的语音包,这意味着提供音频的人必须出于意识形态原因这么做,并且不能用“独家语音包”来获得报酬。而且,我收到的任何赞助都用于GPU计算,基于原则以及潜在的法律责任,我不能从经济上补偿给我合成数据的人。
- 就服务条款(ToS)而言,这种提炼策略基于这样一个事实,即不是我获取数据,而是其他人。显然,我不同意OpenAI的服务条款,也不觉得受其约束,因为我不使用他们的任何产品。欢迎大家评论这个策略有多愚蠢。
- 我已经浏览了美国版权局关于人工智能报告的第二部分。我仍然认为这种性质的合成数据没有版权保护,但任何律师(真正的或想成为律师的)都可以在这里以“我不是律师(IANL)”为前缀发表意见。
- 我不想被起诉,而且我对.50口径的子弹也非常反感。不开玩笑了,我认为OpenAI可能有更大的目标要去对付,而不是某个训练8200万参数语音模型的家伙。
- 为什么要这么做:这些小的TTS模型(相对)训练成本较低,特别是与大型语言模型(LLMs)相比,而且它们提供的总效用可能超过成本,至少目前是这样,直到扎克(Zucc)推出Llama 4多模态或者DeepSeek推出一个好的音频模型等。
- 我所寻求的数据规模是每个语音/情感至少10小时,但标签质量也很重要。每个音频文件都必须逐个筛选出来,因为AVM没有API调用。
我知道这里是LocalLLaMA,这里的人可能非常支持开放权重、开源,因此反对OpenAI。但是抛开你对各种历史方面可能有的任何感受,(A)我们总体上如何看待以这种方式构建模型,(B)我们认为会有足够的人响应这个呼吁吗?
讨论总结
原帖作者是美国的一名TTS模型训练员,介绍了之前的模型Kokoro - 82M情况及存在的问题,现打算再次众包数据构建更好的对话模型,特别是针对ChatGPT高级语音模式文本/音频对。评论者们围绕这个计划展开了多方面的讨论,包括模型训练代码是否开源、GPT - 4o - Audio - Preview模型数据是否可用、是否愿意为模型构建提供帮助、使用合成数据训练语音到文本模型的可能性等话题,大家积极分享观点并互相交流。
主要观点
- 👍 [原帖作者计划再次众包数据构建更好的对话模型]
- 支持理由:[当前模型存在局限,众包数据可能构建更好的模型]
- 反对声音:[无]
- 🔥 [询问原帖作者训练代码是否开源]
- 正方观点:[希望开源训练代码,使更多人受益]
- 反方观点:[有人猜测原帖作者想保持模型封闭以便盈利]
- 💡 [GPT - 4o - Audio - Preview模型数据的可用性]
- [一方提出数据可用性的疑问,另一方推测相关数据质量差异]
- 💡 [对原帖作者寻求众包数据但不公开训练代码表示质疑]
- [认可模型优秀,但认为这种做法不妥]
- 💡 [愿意为模型构建提供帮助]
- [愿意根据自身资源和条件为新模型构建贡献力量]
金句与有趣评论
- “😂 [slimyXD: Will you open source your training code?]”
- 亮点:[直接提问开源问题,引发后续讨论]
- “🤔 [rzvzn: I have no hard evidence to back this up, just hearsay and/or vibe - checking Realtime vs AVM audio from others, but I am pretty sure they are sandbagging their Realtime API and it will not deliver the same quality as Advanced Voice Mode.]”
- 亮点:[对数据质量差异进行推测]
- “👀 [我每月支付200美元(不要问我为什么,拜托了)。]”
- 亮点:[独特的表述方式,引起读者好奇]
- “🤔 [Kokoro is excellent, thank you for your work. That said, keeping the training code to yourself while asking for crowdsourced data is kind of obscene.]”
- 亮点:[对原帖作者既有肯定又有质疑]
- “😎 [我终于让你的模型在本地运行了(虽然不是在GPU上),我想说谢谢,这是我遇到过的最好的TTS模型。]”
- 亮点:[给予模型积极肯定]
情感分析
总体情感倾向是积极的,大部分评论者对原帖作者的工作表示肯定或有参与模型构建的意愿。主要分歧点在于原帖作者是否应该开源训练代码,部分人认为开源有利于更多人学习和改进,而另一部分人猜测原帖作者可能想保持模型封闭盈利。这可能是由于不同的价值观和对模型开发商业性与开放性的不同理解导致的。
趋势与预测
- 新兴话题:[可能会继续探讨如何更好地利用不同来源数据进行模型训练]
- 潜在影响:[如果成功改进模型,可能会对语音模型相关领域产生积极影响,如提高语音转换质量等]
详细内容:
标题:关于美国人训练模型的热门讨论
在 Reddit 上,有一篇题为“Americans can distill models too”的帖子引起了广泛关注。该帖作者是一位美国的 TTS 模型训练师,他表示上个月发布了一个征集合成训练数据的呼吁,获得了超过一百小时的多语言音频,由此训练出的“Kokoro-82M”模型已完成升级并交付,深受用户喜爱,目前是 Hugging Face 上最受欢迎的 TTS 模型和 TTS 空间。但该模型在阅读长文本方面表现出色,短文本方面存在明显局限,且相对平淡、缺乏情感。
现在,作者考虑再次征集众包数据,这次聚焦于仅 ChatGPT 高级语音模式的文本/音频对,可能仅限英语和各种情感。然而,这其中有许多需要考虑的问题:优先给 ChatGPT 付费用户报酬,但实际上可能也会接纳免费的 AVM 音频;理想情况下开源任何从 AVM 数据派生的语音包,但贡献音频的人得出于理念原因,且无法获得“独家语音包”作为补偿;就服务条款而言,作者认为自己不是获取数据的一方,不认同也不受 OpenAI 的服务条款约束;自己不想被起诉,但也不确定这种策略是否可行;训练这类小的 TTS 模型相对便宜,尤其是与大型语言模型相比;所寻求的数据规模至少每个声音/情感 10 小时,且标签质量很重要。最后,作者询问大家对这种建模型方式的看法以及是否会有足够的人响应呼吁。此帖获得了众多评论和关注。
在讨论中,主要观点包括:有人质疑作者不开放训练代码,可能是想将模型封闭并日后盈利;有用户提到 Kokoro 是开源权重的 TTS 模型;有人表示愿意帮助中国;有人认为 Tsukasa 独立训练的 STTS2 模型在日语方面可能比 Kokoro 在任何语言上都表现更好。还有用户分享了自己拥有 ChatGPT 高级语音模式的使用权限,愿意提供帮助;有人好奇能否用合成数据训练语音转文本模型;有人成功在本地运行了模型并表示感谢;也有人认为 Kokoro 虽准确但语音模式单调,而其他模型在这方面表现较好。
对于此,有人认为作者在请求众包数据的同时不公开训练代码有些不妥。但也有人认为 Kokoro 很出色,感谢作者的工作。
总的来说,关于这种训练模型的方式,大家看法不一。一方面有人对其开放程度和商业考虑提出质疑,另一方面也有人对模型的成果表示肯定和支持。而对于是否会有足够的人响应数据征集的呼吁,目前还难以确定。
感谢您的耐心阅读!来选个表情,或者留个评论吧!