你知道的，本地的几乎所有东西都只是一个可直接运行的二进制文件，这与“开源”的含义完全相反。‘开放权重’是正确的说法，但不管怎样人们好像也并不在意，哈哈。AMD的那个小模型是近期唯一（开源）的吗？

讨论总结

原帖对“真正开源”的模型提出疑问，认为很多本地的模型只是二进制文件，并非真正开源。评论区展开了广泛的讨论，主要围绕模型开源的定义，如是否需要开放训练数据、遵循何种开源标准等。同时，版权限制对开源模型的影响、数据质量对模型改进的作用也被提及，大家各抒己见，讨论氛围较为热烈且充满争议。

主要观点

👍 存在像Olmo这样可从头重建的真正开源模型
- 支持理由：由评论者LumpyWelds提出，如果有意愿就可以从头开始重建它。
- 反对声音：无
🔥 训练数据不可用则不是真正的开源
- 正方观点：LumpyWelds认为训练数据是判断是否为真正开源的关键因素。
- 反方观点：有人认为提供训练脚本即可，无需共享数据集。
💡 开放权重、开放数据集和脚本如同食物的不同组成部分，都对模型开源有影响
- 解释：cocoadaemon用食物类比阐述了三者关系。
💡 重建模型需要超参数、优化器等诸多关键细节，仅有数据不够
- 解释：EstarriolOfTheEast指出仅有数据不足以重建模型。
💡 在研究方面更关注开放的方法，在应用方面更关注开放的权重
- 解释：某评论者提出开放在研究和应用方面关注点不同。

金句与有趣评论

“😂 LumpyWelds：Olmo from allanai is a "real" opensource model as in you can recreate them from scratch if you have the inclination.”
- 亮点：明确提出一个被认为是真正开源的模型及其判断依据。
“🤔 LumpyWelds：To me it’s not "real" open source if the training data isn’t also available.”
- 亮点：强调训练数据在判断模型是否开源中的重要性。
“👀 cocoadaemon：The datasets needs to be free, but all the required scripts/plumbing too.”
- 亮点：指出数据集和脚本对模型开源的必要性。
“😉 EstarriolOfTheEast：Having just the data is insufficient to recreate the model.”
- 亮点：说明仅有数据无法重建模型。
“💥 You can find an "openness" matrix in this paper (Figure 2). According to it, Bloomz and Olmo Instruct (from AllenAI) are the most open ones.”
- 亮点：提供了判断模型开放性的参考依据。

情感分析

总体情感倾向为中性，主要分歧点在于模型开源的定义，特别是关于训练数据是否应包含在开源的范畴内。可能的原因是不同的人站在不同的角度看待模型开源，如从研究、应用、商业等不同角度出发，对开源有着不同的需求和理解。

趋势与预测

新兴话题：IT领域伦理和合法性在模型开源中的考量可能会引发后续讨论。
潜在影响：对模型开发的理念和方向产生影响，如果开源标准更加明确，可能会促使更多符合真正开源定义的模型出现，同时也可能影响数据的共享方式和模型的商业化模式。

详细内容：

标题：关于“真正”开源模型的激烈讨论

在 Reddit 上，一篇题为“models that are really open source?”的帖子引发了广泛关注，获得了众多点赞和大量评论。帖子指出，当前许多本地模型只是现成的二进制文件，这与“开源”的含义相去甚远，并询问 AMD 那个较小的模型是否是近期唯一真正开源的。

讨论的焦点集中在对“真正”开源模型的定义和要求上。有人认为，像 AllanAI 的 Olmo 这样可以从头开始重新创建的模型才是“真正”的开源模型，如果训练数据不可用，就不能算真正的开源。还有人提出，数据集需要免费，所有必需的脚本和管道也一样。有人则强调，仅有数据不足以重新创建模型，还需要超参数、优化器等一系列关键细节。

有用户认为，如果提供了所有训练脚本，就可以自己收集数据集并训练模型。但也有人对此表示反对，认为模型改进很大程度上依赖于数据集，自行收集难以达到相同效果。还有用户认为，即使有相同的数据集，由于训练过程中的非确定性因素，也很难重现结果。

特别有见地的观点如：“拥有数据或许是模型中最不重要的细节。真正需要的是背后的思路，这样才能在自己选择的更多数据上复制，或者在出现问题时进行调试。”

讨论中的共识在于对开源模型的严格要求，但对于具体的标准和实现方式存在争议。

这场讨论凸显了在开源模型领域中，定义和实现真正开源所面临的复杂挑战，也促使人们深入思考如何在技术发展与法律、道德之间寻求平衡。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#