原贴链接

你知道的,本地的几乎所有东西都只是一个可直接运行的二进制文件,这与“开源”的含义完全相反。‘开放权重’是正确的说法,但不管怎样人们好像也并不在意,哈哈。AMD的那个小模型是近期唯一(开源)的吗?

讨论总结

原帖对“真正开源”的模型提出疑问,认为很多本地的模型只是二进制文件,并非真正开源。评论区展开了广泛的讨论,主要围绕模型开源的定义,如是否需要开放训练数据、遵循何种开源标准等。同时,版权限制对开源模型的影响、数据质量对模型改进的作用也被提及,大家各抒己见,讨论氛围较为热烈且充满争议。

主要观点

  1. 👍 存在像Olmo这样可从头重建的真正开源模型
    • 支持理由:由评论者LumpyWelds提出,如果有意愿就可以从头开始重建它。
    • 反对声音:无
  2. 🔥 训练数据不可用则不是真正的开源
    • 正方观点:LumpyWelds认为训练数据是判断是否为真正开源的关键因素。
    • 反方观点:有人认为提供训练脚本即可,无需共享数据集。
  3. 💡 开放权重、开放数据集和脚本如同食物的不同组成部分,都对模型开源有影响
    • 解释:cocoadaemon用食物类比阐述了三者关系。
  4. 💡 重建模型需要超参数、优化器等诸多关键细节,仅有数据不够
    • 解释:EstarriolOfTheEast指出仅有数据不足以重建模型。
  5. 💡 在研究方面更关注开放的方法,在应用方面更关注开放的权重
    • 解释:某评论者提出开放在研究和应用方面关注点不同。

金句与有趣评论

  1. “😂 LumpyWelds:Olmo from allanai is a "real" opensource model as in you can recreate them from scratch if you have the inclination.”
    • 亮点:明确提出一个被认为是真正开源的模型及其判断依据。
  2. “🤔 LumpyWelds:To me it’s not "real" open source if the training data isn’t also available.”
    • 亮点:强调训练数据在判断模型是否开源中的重要性。
  3. “👀 cocoadaemon:The datasets needs to be free, but all the required scripts/plumbing too.”
    • 亮点:指出数据集和脚本对模型开源的必要性。
  4. “😉 EstarriolOfTheEast:Having just the data is insufficient to recreate the model.”
    • 亮点:说明仅有数据无法重建模型。
  5. “💥 You can find an "openness" matrix in this paper (Figure 2). According to it, Bloomz and Olmo Instruct (from AllenAI) are the most open ones.”
    • 亮点:提供了判断模型开放性的参考依据。

情感分析

总体情感倾向为中性,主要分歧点在于模型开源的定义,特别是关于训练数据是否应包含在开源的范畴内。可能的原因是不同的人站在不同的角度看待模型开源,如从研究、应用、商业等不同角度出发,对开源有着不同的需求和理解。

趋势与预测

  • 新兴话题:IT领域伦理和合法性在模型开源中的考量可能会引发后续讨论。
  • 潜在影响:对模型开发的理念和方向产生影响,如果开源标准更加明确,可能会促使更多符合真正开源定义的模型出现,同时也可能影响数据的共享方式和模型的商业化模式。

详细内容:

标题:关于“真正”开源模型的激烈讨论

在 Reddit 上,一篇题为“models that are really open source?”的帖子引发了广泛关注,获得了众多点赞和大量评论。帖子指出,当前许多本地模型只是现成的二进制文件,这与“开源”的含义相去甚远,并询问 AMD 那个较小的模型是否是近期唯一真正开源的。

讨论的焦点集中在对“真正”开源模型的定义和要求上。有人认为,像 AllanAI 的 Olmo 这样可以从头开始重新创建的模型才是“真正”的开源模型,如果训练数据不可用,就不能算真正的开源。还有人提出,数据集需要免费,所有必需的脚本和管道也一样。有人则强调,仅有数据不足以重新创建模型,还需要超参数、优化器等一系列关键细节。

有用户认为,如果提供了所有训练脚本,就可以自己收集数据集并训练模型。但也有人对此表示反对,认为模型改进很大程度上依赖于数据集,自行收集难以达到相同效果。还有用户认为,即使有相同的数据集,由于训练过程中的非确定性因素,也很难重现结果。

特别有见地的观点如:“拥有数据或许是模型中最不重要的细节。真正需要的是背后的思路,这样才能在自己选择的更多数据上复制,或者在出现问题时进行调试。”

讨论中的共识在于对开源模型的严格要求,但对于具体的标准和实现方式存在争议。

这场讨论凸显了在开源模型领域中,定义和实现真正开源所面临的复杂挑战,也促使人们深入思考如何在技术发展与法律、道德之间寻求平衡。