帖子仅提供了一个图片链接,无实质可翻译内容
讨论总结
该讨论围绕New DeepSeek V3和Gemini 2.5 Pro在长情境下的测试展开。参与者对测试中的情境设置、模型准确率、基准测试是否存在问题等提出了各自的观点,还涉及到不同模型在长文本处理方面的表现、特定情况下使用大型语言模型的价值,同时也有对其他未测试模型的好奇和惊叹等情绪,整体讨论氛围理性且观点多元。
主要观点
- 👍 对0情境下进行测试的做法表示质疑。
- 支持理由:认为0情境测试看起来很愚蠢。
- 反对声音:无(未提及)
- 🔥 Gemini 2.5长文本语境下准确率不稳定。
- 正方观点:数据显示准确率单向下降又恢复等不稳定情况。
- 反方观点:不认为基准测试有问题所以不认为是模型本身不稳定。
- 💡 质疑在超过32k上下文时使用LLM的价值。
- 解释:只是提出疑问,未给出具体理由,后续回复提到新的Gemini使情况变好。
- 🤔 对Gemini持正面评价,对Deepseek持负面评价。
- 解释:未给出具体评价依据,只是直接表明态度。
- 😎 正在进行的测试与NoLiMa基准测试相似,这类测试很有必要,需要更多这样的测试。
- 解释:通过类比得出需要更多此类测试的结论。
金句与有趣评论
- “😂 How are they testing 0 context? That seems silly.”
- 亮点:直接表达对0情境测试的疑惑与质疑。
- “🤔 The long context accuracy for gemini 2.5 looks curiously unstable.”
- 亮点:点出Gemini 2.5长文本准确率不稳定这一关键问题。
- “👀 Gemini looks amazing. Deepseek not so much.”
- 亮点:简洁表明对Gemini和Deepseek的不同态度。
- “😎 This is similar to the NoLiMa (no literal match) benchmark (check the paper on arxiv). Neat.”
- 亮点:将正在进行的测试与其他基准测试类比。
- “💡 I would’ve said no previously, but with the new gemini it’s looking much better!”
- 亮点:反映出Gemini的出现改变了对在特定上下文使用LLM价值的看法。
情感分析
总体情感倾向较为理性中立。主要分歧点在于Gemini 2.5长文本语境下准确率不稳定是模型本身问题还是测试基准问题,以及对Deepseek和Gemini的评价不同。可能的原因是不同的参与者有不同的测试观察角度和对模型的期望。
趋势与预测
- 新兴话题:对QWQ模型在120k进行测试以及不同模型在长文本情境下不同位置的表现。
- 潜在影响:对大型语言模型在长文本处理方面的研究和改进有一定的启发意义,有助于推动相关技术在处理长文本时表现更好。
详细内容:
标题:关于新 DeepSeek V3 和 Gemini 2.5 Pro 在长上下文测试中的热门讨论
最近,Reddit 上有一个关于新 DeepSeek V3 和 Gemini 2.5 Pro 在长上下文测试的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。帖子主要围绕这两款模型在长上下文测试中的表现展开。
讨论的焦点和观点众多。有人提出对零上下文测试方式的质疑,认为这有些荒谬。也有人认为这是一个非常有趣的基准,尽管对其标注上下文的方式觉得有点误导。还有人表示这是自己最喜欢的基准之一,并提供了相关链接。
对于测试结果,有人觉得 Gemini 2.5 在长上下文的准确性表现不稳定,比如在 16k 时已降至 66,在 120k 时又恢复到 90。有人猜测 16k 可能是某种策略的转折点,也有人怀疑基准可能存在缺陷。还有人希望看到更多中间值的测试结果,比如 12k、20k 等,并认为目前 0 - 4k 范围的测试使得基准不够可靠。有人觉得也许是某种随机的窗口注意力导致了这种情况,通过调整数据位置可以用于测试。有人认为对于超过 32k 上下文使用 LLM 是否值得存疑,而有人表示有了新的 Gemini 情况看起来好多了。有人认为 Gemini 表现惊人,DeepSeek 则相对一般。有人指出这与 NoLiMa 基准类似,并认为需要更多这样的基准。有人好奇特定上下文位置,比如 16k 上下文的开头、中间、结尾哪个部分问题最多。
在这场讨论中,大家对于 Gemini 2.5 Pro 和 DeepSeek V3 的表现看法不一,但都展现出对模型测试的深入思考和关注。不同观点的碰撞,让人们对模型在长上下文处理方面有了更全面的认识。
感谢您的耐心阅读!来选个表情,或者留个评论吧!