原贴链接

有人能解释一下为什么DeepSeek的模型被视为开源吗?按照[OSI的定义](https://opensource.org/ai/open-source-ai - definition)似乎并不符合,因为我们缺少数据和代码,无法重现模型。我们只知道输出和模型,这顶多算是免费软件。那么为什么它被称为开源呢?

讨论总结

原帖对DeepSeek V3被认为是开源提出质疑,依据OSI定义,由于缺少数据和代码无法重建模型,不应算开源。评论者们从多个角度进行讨论,包括对开源概念理解的差异、模型权重与开源的关系、可重现性是否为开源必要条件等,大家各执一词,讨论热度整体处于中等水平。

主要观点

  1. 👍 模型大多开放权重,数据难发布因版权诉讼风险
    • 支持理由:行业普遍存在此现象。
    • 反对声音:无数据不应被称为开源。
  2. 🔥 虽无训练数据和代码,但按部分开源定义可自由使用、研究、修改和分享
    • 正方观点:满足部分开源条件。
    • 反方观点:完整定义还应包含更多内容。
  3. 💡 按照OSI定义,缺乏数据和代码不能重现模型就不算开源
    • 解释:开源应满足能重现模型的条件。
  4. 💡 模型权重不是源代码,称其为“开源”易混淆,称“开放权重”可能更合适
    • 解释:两者概念不同,易造成误解。
  5. 💡 除特定群体外,多数人不再关心OSI对开源的定义,大众用通俗理解
    • 解释:语言随时间变化,定义被淡化。

金句与有趣评论

  1. “😂 Pretty much all models are open weights. Hard to release data when everyone vultures it for copyright lawsuits.”
    • 亮点:指出模型权重开放但数据难发布的原因。
  2. “🤔 You are right, but this doesn’t explain why is it called open - source on reputable sites when the source code is not available (let’s put the data aside).”
    • 亮点:对将无源代码的项目称为开源提出质疑。
  3. “👀 You’re just getting a black box alien brain. That’s how all the "open weights" models are.”
    • 亮点:形象比喻“开放权重”模型。
  4. “😉 You are correct. They are not open source. But "open weights" doesn’t sound as good, so everyone seems happy to recycle software terms for AI.”
    • 亮点:解释用“开源”表述AI的原因。
  5. “🤓 open science /= open - source.”
    • 亮点:简洁表明开放科学与开源不同。

情感分析

总体情感倾向为争议性较强。主要分歧点在于DeepSeek V3是否符合开源定义,原因在于不同评论者对开源概念的理解不同,有的从传统开源定义出发,认为缺少数据和代码不能重现模型就不算开源,有的则从实际使用角度或宽泛的开源概念出发,认为可以算开源或者不必纠结定义。

趋势与预测

  • 新兴话题:关于模型权重与开源关系的进一步探讨,以及在不同领域(如GenAI)对开源概念的特殊理解。
  • 潜在影响:促使AI领域对开源定义进行重新审视,影响开源模型的发展方向和用户对开源模型的期望与使用方式。

详细内容:

《关于 DeepSeek V3 是否为开源的激烈讨论》

在 Reddit 上,一则关于“为什么 DeepSeek V3 被认为是开源”的帖子引发了广泛关注,获得了众多点赞和大量评论。原帖指出,DeepSeek 的模型似乎不符合 OSI 的开源定义,因为数据和代码缺失,只能知道输出和模型,这最多算免费软件。因此质疑为何它被称为开源。

讨论的焦点主要集中在以下几个方面: 有人认为,由于版权诉讼等问题,很难公开数据,所以模型开放权重已属不易。但也有人指出,在知名网站上被称为开源,却没有提供源代码,这令人费解。还有人觉得这种情况很混乱,也有人提供了相关的代码链接。 例如,有用户分享道:“作为一名资深开发者,我之前一直找不到所谓的‘代码’,真是令人无奈。” 同时,有人认为开源的历史目的在于控制硬件,理解和学习软件,可重编译到其他架构,而 DeepSeek V3 模型缺少这些关键要素。 但也有人表示,虽然不是严格意义上的开源,但它提供的信息足够人们对其进行各种操作。 有人指出开放权重与开源不同,称其为开源会造成混淆,或许“开放模型”“免费模型”等称呼更合适。 还有观点认为,语言会随时间变化,社区对开源有通俗的理解,不必过于纠结。

这场讨论的共识在于对 DeepSeek V3 是否为真正开源存在争议和不同看法。特别有见地的观点是,开源应有明确清晰的定义以避免混淆,同时应考虑到实际情况和语言的演变。

总之,关于 DeepSeek V3 是否为开源的讨论仍在继续,各方观点都有其合理性,也让人们对开源的定义有了更深入的思考。