一个开源权重模型具有公开的权重,你可以从像Hugging Face这样的网站下载。一个开源模型有公开的训练代码和训练数据集,允许完全复现(这个定义不是我提出的,我个人认为数据集的要求太严格了,因为那样的话几乎每个主要模型都是闭源的)。一个宽松许可的模型有像MIT或者Apache 2.0这样宽松的许可证,这意味着你可以对权重做很多事,比如通过商业化的推理端点来提供服务。像CC - BY - NC这样的许可证通常被认为是“非宽松的”,因为NC意味着非商业性。Kokoro - 82M是我训练并上传到HF的一个Apache 2.0模型,但是没有上传附带的训练代码或者数据集,因此根据上述定义它是宽松且开源权重的,但也是闭源的。正如我过去所说,在https://github.com/yl4579/StyleTTS2已经有MIT许可的训练代码,其他人已经使用/修改它来生产与Kokoro相当甚至在某些情况下更好的模型。但是似乎没人关心这个,他们想要我的特定训练代码。很多人猜测我为什么还没有这么做。我在这里给出两个非常实际的原因——可能还有其他原因,但这两个是关键且充分的。首先是商业方面。显然,我编写的代码包括训练代码对我和其他人有商业价值。很多呼吁我发布训练代码的人,无疑会转身将这个代码商业化。在推理方面,我理解并接受这个现实,这并不妨碍我发布和改进推理代码,尤其是针对其他语言的。我不能保证我会在训练方面也这么做。其次是价格波动,或者基本的供求关系。我没有本地的NVIDIA GPU,因此依赖A100 80GB的云租赁。我的训练代码是专门为A100 80GB配置的(在某些地方是硬编码的),因为这些训练运行通常对vRAM要求很高。除非(或者即使)我重构,开源训练代码可能会导致我想要使用的相同机器的租赁需求增加,使当前和未来的训练运行更加昂贵。我在Vast.ai上看到的最低的五个A100 80GB的价格是1.1美元、1.35美元、1.35美元、1.41美元、1.47美元,这是典型的价格深度(或者说缺乏深度)。即使少数人抢购最便宜的A100也会对价格有很大影响。尽管我自己的训练代码目前没有发布:你可以使用前面提到的MIT训练代码来训练StyleTTS2模型。我没有限制或者混淆Kokoro的StyleTTS2根源——从第一天起它就在自述文件里。当然,我选择了一个新的模型名,但按照行业标准,当模型有实质上新的权重时,重新命名是普遍可接受的。其他人已经/将要发布他们自己的训练代码,用于StyleTTS2模型和其他模型。将会有更好的开源模型,在Kokoro系列中,在整个TTS领域,以及一般的所有模态中。这篇文章是由我和u/Fold - Plastic的一次反复讨论所激发的。对于那些认为我因为不发布训练代码就是敌人的人:我认为你们对一个在非宽松和闭权重组织领域里的宽松 - 开源权重的独立开发者有太多敌意了。正是这种敌意使得开源变得疲惫而非有益,并促使开发者投向能赚钱的闭源的温暖怀抱。一些其他的注意事项:我还没有对语音克隆做出决定,不过与训练代码不同,编码器的发布不会使我的A100成本增加50%,所以它比发布训练代码的可能性更大。对于Kokoro,把你对语音克隆性能的期望除以10,因为在训练期间看到的音频量仍然比其他TTS模型低很多。同时,对于语音克隆,你应该关注在更多音频上训练的更大的TTS模型,比如XTTS Fish Zonos等。语音克隆特朗普、泰勒·斯威夫特或者奥巴马可能更少是“黑魔法”而更多是“检索”,假设这些名人在训练数据集中(目前Kokoro不是这种情况)。未来的Kokoro模型(即1.0版本以上)可能会遵循像hexgrad/Kokoro - 82M - vX.Y
这样的命名方案。如果语音克隆要发布,模型命名将改为hexgrad/Kokoro - vX.Y
。这是因为编码器大约有25M个参数,把编码器和82M解码器的参数相加感觉不合适。
讨论总结
原帖讨论了开放权重但闭源的模型(如作者训练的Kokoro - 82M模型),解释未公开训练代码的商业价值和资源供需方面的原因。评论者们从不同角度进行回应,多数人表示理解和支持原帖作者的决定,也有部分人针对开源定义、模型商业化等问题展开理性讨论,整体氛围较为和谐。
主要观点
- 👍 对原帖作者不公开训练代码表示理解
- 支持理由:理解原作者面临商业价值受损、资源成本上升等问题,尊重其对自己代码的处置权。
- 反对声音:无
- 🔥 认可不同的开源程度存在合理性
- 正方观点:如开放权重虽不等同于开源但只要无虚假宣传就是可行的,且各公司有权决定自身的开源程度。
- 反方观点:有人认为不能既称开源又拒绝对源代码的索要。
- 💡 认为开源定义难以完全套用于大型语言模型(LLMs)
- 理由:由于无法证明API背后的模型身份等原因,相关许可证难以应用于LLMs。
- 👍 肯定原帖作者所做的工作和其模型价值
- 支持理由:认可原帖作者的付出、训练成果以及采用的许可证等,即使模型闭源也有价值。
- 反对声音:无
- 🔥 关于模型商业化的不同看法
- 正方观点:原帖作者认为很多人会将训练代码商业化有合理性,部分人认可存在商业化现象。
- 反方观点:有人认为说“很多”有些夸张,也有人只是想自己运行代码。
金句与有趣评论
- “😂 我对你的决定没有任何问题。”
- 亮点:简洁表达对原帖作者决定的接受态度。
- “🤔 要求每个模型作者开源是不合理的。”
- 亮点:理性看待开源问题,不是一味强求开源。
- “👀 我一直很欣赏你发布内容所采用的Apache许可证。”
- 亮点:肯定了原帖内容中的Apache许可证的积极意义。
- “😎 即使数据和训练在像AGPL这样的许可证下可用,你也没有办法去执行,因为不可能证明API背后的模型是任何特定的模型。”
- 亮点:从独特角度阐述了LLMs许可证执行的难点。
- “👍 释放开源代码是一段漫长旅程的开始。”
- 亮点:形象地表达了开源代码后的状况。
情感分析
总体情感倾向为正面积极。主要分歧点在于原帖作者关于很多人会将训练代码商业化这一观点是否夸张,以及对模型开源定义的理解。可能的原因是不同评论者所处的立场和关注的重点不同,比如有评论者站在自身使用代码需求角度,有的从商业或开源社区发展角度考虑。
趋势与预测
- 新兴话题:关于如何在保证模型开发者权益的前提下更好地促进开源发展,如发布开放权重和开源两个模型的做法是否可行。
- 潜在影响:如果能形成关于模型开源更合理的定义和操作模式,将有助于推动AI模型开发领域的健康发展,减少开发者与使用者之间的矛盾。
详细内容:
标题:关于模型开源的热门讨论
在 Reddit 上,一则题为“ The Paradox of Open Weights, but Closed Source ”的帖子引发了广泛关注。该帖子介绍了模型开源的相关概念,如开放权重模型、开源模型和许可模型等,并以 Kokoro-82M 模型为例,阐述了作者未开源训练代码的原因。此帖获得了众多点赞和大量评论。
主要的讨论方向包括对作者决定的看法、开源模型的定义和价值,以及相关的商业和技术考量等。
文章将要探讨的核心问题是:在模型开发中,如何平衡开源与商业利益,以及怎样定义真正的开源模型。
在讨论焦点与观点分析方面,有人表示理解作者的决定,认为要求每个模型作者都开源是不合理的,比如 [ttkciar] 说:“对于您发布闭源模型,我没有任何敌意。要求每个模型作者都开源是不合理的,当然,每个开源模型都值得庆祝。” 也有人认为开源不仅仅是权重,还应包括训练代码和数据集,比如 [phhusson] 提到:“开源意味着能够重现二进制文件,所以它包括训练代码和数据集。”
[simion314] 则认为需要为开放权重但无开放代码和训练数据的情况找到一个合适的名称和许可。
还有人从自身经历出发,如 [Reddactor] 提到在开源项目中,发布训练代码后会面临大量的支持请求和维护工作,耗费大量时间和精力。
讨论中的共识是理解作者在开源问题上的权衡,认识到开源并非简单的决定,涉及众多因素。特别有见地的观点如 [suprjami] 认为不同模型使用不同的数据和代码,能让自然语言处理软件具有多样性,行业也能共同发展。
总之,这次关于模型开源的讨论充分展现了其复杂性和多样性,也让我们对开源的概念和实践有了更深入的思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!