原贴链接

https://www.emergingtechbrew.com/stories/2025/02/07/allen - institute - open - source - model - deepseek?mbcid = 38624075.320719&mblid = 76a9d29d5c33&mid = 4bf97fa50758e4f9907627b7deaa5807&utm_campaign = etb&utm_medium = newsletter&utm_source = morning_brew

讨论总结

这是一个围绕艾伦人工智能研究所（AI2）展开的讨论。评论者从不同角度对AI2进行了分析，包括其模型成果（如微调模型的表现、与其他模型对比等）、在开源方面的贡献、在研究质量上的高低、指令模型相关的成就等。在情感态度上，有正面支持的，也有负面否定的，还有对AI2持疑惑态度的，整个讨论氛围理性且全面地涉及了多个方面的内容。

主要观点

👍 某模型是Llama 3.1 405B微调版且无MoE，不是推理模型
- 支持理由：文章未明确提及这一情况，但评论者发现
- 反对声音：无
🔥 AI2近期成果只是普通研究级成果
- 正方观点：从成果来看没什么亮点
- 反方观点：作为非营利机构有开源贡献应被肯定
💡 认为LLMs中强调数学推理可能是研究人员STEM偏见的有害表现
- 支持理由：数学推理被过度强调，其他宽松推理更有趣
- 反对声音：推理模型为STEM创建有其合理性
👍 艾伦人工智能研究所为开源社区做了很多贡献（真正的开源，而不仅仅是开放权重）
- 支持理由：评论者认可其开源行为
- 反对声音：无
🔥 405b微调模型与基础模型区别不大，在多项基准测试中不如基础模型
- 正方观点：测试结果显示不如基础模型
- 反方观点：无

金句与有趣评论

“😂 They don’t make this clear in the article, but it’s a Llama 3.1 405B finetune. Meaning no MoE. Also it’s not a reasoning model, so it doesn’t directly compare to R1, which is usually what’s implied when talking about DeepSeek.”
- 亮点：指出文章未提及的模型关键信息
“🤔 They sound salty because they had a good idea but didn’t take all the way wuth good execution and what they actually launched kind of sucks.”
- 亮点：独特地解读了某些团队的态度
“👀 Their RL penalized long answers (I’m sure someone is kicking themselves really hard for this)”
- 亮点：揭示了模型训练中的一个问题点
“😂 Everything that recently came out from AI2 was to say mild, unimpressive research grade stuff.”
- 亮点：直接表达对AI2近期成果的看法
“🤔 The emphasis on math problems and mathematical reasoning for LLMs seems really misplaced to me, and arguably a deleterious synprom of researchers having too strong of a STEM bias.”
- 亮点：提出了关于LLMs中数学推理的独特观点

情感分析

总体情感倾向是多元的，既有正面支持、期待的，也有负面否定、不认可的，还有持疑惑态度的。主要分歧点在于对AI2成果的评价上，有人认为其成果普通、甚至不佳，而有人认可其在开源方面的贡献等其他积极面。可能的原因是大家关注的重点不同，有的侧重于成果质量，有的侧重于其在开源社区等方面的贡献。

趋势与预测

新兴话题：未来统一模型能否根据任务选择是否使用推理模型。
潜在影响：如果未来真的出现这样的统一模型，可能会改变LLMs的应用模式和研究方向，对整个AI领域的发展产生推动作用。

详细内容：

标题：关于 The Allen Institute for AI（AI2）的热门讨论

最近，Reddit 上关于 The Allen Institute for AI（AI2）的讨论热度颇高。原帖[https://www.emergingtechbrew.com/stories/2025/02/07/allen-institute-open-source-model-deepseek?mbcid=38624075.320719&mblid=76a9d29d5c33&mid=4bf97fa50758e4f9907627b7deaa5807&utm_campaign=etb&utm_medium=newsletter&utm_source=morning_brew]引发了众多网友的热议，点赞数和评论数众多。

讨论的焦点主要集中在 AI2 的模型表现、与其他模型的比较以及其在开源领域的贡献等方面。有人认为 AI2 虽然在某些方面有所尝试，但成果不够出色，比如其 405B 微调与基础模型相比差异不大，甚至在一些基准测试中表现不佳。但也有人认为其在开源社区做了很多贡献，其完全开放的训练过程值得肯定。

有人说：“他们不明确文章中的这点，这是 Llama 3.1 405B 微调。意味着没有 MoE。而且它不是推理模型，所以不能直接与 R1 比较，通常谈论 DeepSeek 时会暗示这一点。”

还有用户表示：“他们听起来很沮丧，因为他们有个好主意，但没有很好地执行，他们实际推出的东西有点糟糕。让他们构建一个最先进的模型，然后他们会有五分钟的成名时间。”

也有人提到：“我不认为这是沮丧，我认为他们可能真的很沮丧。在 DeepSeek R1 出来后，我再次阅读了他们的 Tulu 3 论文（并意识到我自己 RLVR 与 DeepSeek 所做的非常相似），公平地说，他们确实有制作 R1 模型的所有基础。他们只是有点‘搞砸了’。他们的 RL 惩罚了长答案（我确信有人为此狠狠地自责）。他们在训练结束时只做了几步 RL，注意到有改进但就此停止（再次，我确信有人为此自责）。”

关于 AI2 在中国市场的表现，有人认为中国在很长一段时间内一直在追赶，但直到推出别人没有的东西才受到关注。有人认为 Open AI 和 Anthropic 原本不想公开某些技术，当 Deep Seek 公开相关想法时，他们急于声称功劳。

在讨论中，也有关于多模态模型的看法。有人认为 Molmo 模型在视觉推理和指向方面遥遥领先，也有人认为多模态模型不像 2024 年想象的那么重要。

总的来说，对于 AI2 的评价存在分歧，有人对其成果不太满意，有人则肯定其在开源方面的努力和贡献。但无论如何，这些讨论都反映了大家对人工智能领域发展的关注和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#