帖子仅提供了一个图片链接，无实质可翻译内容

讨论总结

该讨论围绕New DeepSeek V3和Gemini 2.5 Pro在长情境下的测试展开。参与者对测试中的情境设置、模型准确率、基准测试是否存在问题等提出了各自的观点，还涉及到不同模型在长文本处理方面的表现、特定情况下使用大型语言模型的价值，同时也有对其他未测试模型的好奇和惊叹等情绪，整体讨论氛围理性且观点多元。

主要观点

👍 对0情境下进行测试的做法表示质疑。
- 支持理由：认为0情境测试看起来很愚蠢。
- 反对声音：无（未提及）
🔥 Gemini 2.5长文本语境下准确率不稳定。
- 正方观点：数据显示准确率单向下降又恢复等不稳定情况。
- 反方观点：不认为基准测试有问题所以不认为是模型本身不稳定。
💡 质疑在超过32k上下文时使用LLM的价值。
- 解释：只是提出疑问，未给出具体理由，后续回复提到新的Gemini使情况变好。
🤔 对Gemini持正面评价，对Deepseek持负面评价。
- 解释：未给出具体评价依据，只是直接表明态度。
😎 正在进行的测试与NoLiMa基准测试相似，这类测试很有必要，需要更多这样的测试。
- 解释：通过类比得出需要更多此类测试的结论。

金句与有趣评论

“😂 How are they testing 0 context? That seems silly.”
- 亮点：直接表达对0情境测试的疑惑与质疑。
“🤔 The long context accuracy for gemini 2.5 looks curiously unstable.”
- 亮点：点出Gemini 2.5长文本准确率不稳定这一关键问题。
“👀 Gemini looks amazing. Deepseek not so much.”
- 亮点：简洁表明对Gemini和Deepseek的不同态度。
“😎 This is similar to the NoLiMa (no literal match) benchmark (check the paper on arxiv). Neat.”
- 亮点：将正在进行的测试与其他基准测试类比。
“💡 I would’ve said no previously, but with the new gemini it’s looking much better!”
- 亮点：反映出Gemini的出现改变了对在特定上下文使用LLM价值的看法。

情感分析

总体情感倾向较为理性中立。主要分歧点在于Gemini 2.5长文本语境下准确率不稳定是模型本身问题还是测试基准问题，以及对Deepseek和Gemini的评价不同。可能的原因是不同的参与者有不同的测试观察角度和对模型的期望。

趋势与预测

新兴话题：对QWQ模型在120k进行测试以及不同模型在长文本情境下不同位置的表现。
潜在影响：对大型语言模型在长文本处理方面的研究和改进有一定的启发意义，有助于推动相关技术在处理长文本时表现更好。

详细内容：

标题：关于新 DeepSeek V3 和 Gemini 2.5 Pro 在长上下文测试中的热门讨论

最近，Reddit 上有一个关于新 DeepSeek V3 和 Gemini 2.5 Pro 在长上下文测试的帖子引发了热烈讨论。该帖子获得了众多关注，评论数众多。帖子主要围绕这两款模型在长上下文测试中的表现展开。

讨论的焦点和观点众多。有人提出对零上下文测试方式的质疑，认为这有些荒谬。也有人认为这是一个非常有趣的基准，尽管对其标注上下文的方式觉得有点误导。还有人表示这是自己最喜欢的基准之一，并提供了相关链接。

对于测试结果，有人觉得 Gemini 2.5 在长上下文的准确性表现不稳定，比如在 16k 时已降至 66，在 120k 时又恢复到 90。有人猜测 16k 可能是某种策略的转折点，也有人怀疑基准可能存在缺陷。还有人希望看到更多中间值的测试结果，比如 12k、20k 等，并认为目前 0 - 4k 范围的测试使得基准不够可靠。有人觉得也许是某种随机的窗口注意力导致了这种情况，通过调整数据位置可以用于测试。有人认为对于超过 32k 上下文使用 LLM 是否值得存疑，而有人表示有了新的 Gemini 情况看起来好多了。有人认为 Gemini 表现惊人，DeepSeek 则相对一般。有人指出这与 NoLiMa 基准类似，并认为需要更多这样的基准。有人好奇特定上下文位置，比如 16k 上下文的开头、中间、结尾哪个部分问题最多。

在这场讨论中，大家对于 Gemini 2.5 Pro 和 DeepSeek V3 的表现看法不一，但都展现出对模型测试的深入思考和关注。不同观点的碰撞，让人们对模型在长上下文处理方面有了更全面的认识。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#