无内容（仅为一张图片链接）

讨论总结

整个讨论围绕DeepSeek在长文本语境下的表现展开。许多评论者对原帖中DeepSeek“crushing it”的说法表示质疑，通过数据比较、模型能力等多方面因素进行分析。同时也涉及到其他模型如o1、R1、Gemini等在长文本语境下的表现以及不同模型间的比较，讨论氛围比较热烈且争议性较强。

主要观点

👍 对0语境下低于100的基准分数表示喜爱
- 支持理由：未明确提及，用“Love”表达积极态度并使用表情符号增强情感
- 反对声音：无
🔥 对标题中DeepSeek在长语境下表现出色表示质疑
- 正方观点：从给出的数据看可能是在长文本语境下表现不佳
- 反方观点：有观点认为DeepSeek开源且接近第一名，表现较好
💡 r1在60k之前表现优于很多模型
- 解释：未提及具体支持理由，只是陈述观点
💡 o1能持续战胜r1
- 解释：未提及具体支持理由，只是陈述观点
💡 o1的表现优于列表中的其他模型
- 解释：未提及具体支持理由，只是陈述观点

金句与有趣评论

“😂 Love that there are benchmark scores below 100 on 0 context 😭”
- 亮点：简洁地表达出对特定基准分数的喜爱，表情符号增强情感
“🤔 You mean crushing as in „the performance crushed under long context conditions“? Because that’s what your data shows.”
- 亮点：通过反问句质疑标题中的说法，并以数据为依据
“👀 R1 is great but the OP’s own data shows o1 at 32k outperforms R1 at 400…”
- 亮点：用数据比较两个模型在不同数值下的表现，对原帖观点进行质疑
“😏 yeah what i see is o1 crushing everyone. is this some lowkey openai ad? lol”
- 亮点：提出原帖可能是低调的OpenAI广告的猜测，带有调侃意味
“🤨 frivolousfidget: op being ironic? O1 owned this bench…”
- 亮点：质疑原帖是否具有讽刺性，简单直接

情感分析

总体情感倾向为质疑较多。主要分歧点在于DeepSeek在长文本语境下是否表现出色，部分评论者认为表现不佳或者原帖有夸大嫌疑，而部分评论者认为DeepSeek表现较好或者接近第一名。可能的原因是大家基于不同的数据、模型的理解以及对长文本语境下表现的不同评判标准。

趋势与预测

新兴话题：希望看到DeepSeek与MoBA结合的结果，对不同模型在100万相关数值下的表现的探讨。
潜在影响：可能促使相关人员进一步研究模型在长文本语境下的表现优化，也可能影响人们对开源模型的选择和评价。

详细内容：

标题：关于“DeepSeek 在长上下文表现”的热门讨论

在 Reddit 上，一个题为“DeepSeek crushing it in long context”的帖子引发了热烈讨论。该帖子包含一张图片（图片链接：https://i.redd.it/kqree46b1wke1.png），但由于图片处理错误未能正常展示。此帖获得了众多关注，引发了大家对 DeepSeek 及其他模型在长上下文环境下表现的激烈讨论。

讨论焦点主要集中在不同模型在不同上下文长度下的性能表现。有人认为某些模型在特定上下文长度下表现不佳，比如有人指出“R1 在 60k 之前表现出色，但之后性能下降明显”。还有人分享个人测试经历，如“我对 Gemini 模型在 100k 至 200k 之间进行了大量测试，发现它们在 128k 之前都相当可用”。

关于模型性能差异的原因，大家观点不一。有人提出“可能是架构问题，也可能是训练数据集的问题”。有人质疑测试的准确性，比如“我不认为他们的基准测试对于故事理解是准确的，这与我的经验不匹配”。

同时，也有不少有趣和独特的观点。比如有人调侃“O1 拥有这个基准，而 o3 - mini 则表现糟糕”，还有人好奇“如果我有一个基于大量哲学文本训练的 LLM，如何训练它以最小化上下文长度问题”。

总的来说，这次关于模型在长上下文环境下表现的讨论，充满了各种不同的声音和观点，充分展示了大家对于这一话题的深入思考和热烈交流。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#