原贴链接

Livebench官方网站报告DeepSeek - V3.0324的平均分数为66.86，这明显低于我的测试结果。我已经进行了3次测试，结果如下：1. 使用DeepSeek官方API，–max - tokens 8192：平均70.2；2. 使用第三方供应商，无额外标志：平均69.7；3. 使用第三方供应商，–max - tokens 16384且–force - temperature 0.3：平均70.0。是的，我使用的是2024 - 11 - 25的检查点，如图所示。请问有人能再检查一下看我是否犯了什么错误吗？编辑：可能是30%的私人测试的影响。[https://www.reddit.com/r/LocalLLaMA/comments/1jkhlk6/comment/mjvqooj/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button]

讨论总结

原帖作者发现DeepSeek - V3.1的官方Livebench分数和自己本地多次测试结果不匹配，在Reddit上寻求帮助。评论者从多个角度进行了回应，包括感谢原帖作者测试、猜测官方使用次优设置、提到官方30%的数据未公开影响结果重现、质疑原测试与官方测试的设置是否相同、指出官方API使用特殊采样器等，讨论氛围较为理性，大家都在试图解释分数不匹配的原因。

主要观点

👍 官方可能使用了次优设置
- 支持理由：类似qwq - 32b有分数提升情况，官方可能默认温度为0，而对于多数大型语言模型温度为0不是最优
- 反对声音：无
🔥 官方Livebench有30%的问题未公开所以无法完全重现评估
- 正方观点：LiveBench - 2024 - 11 - 25有300个新问题，部分数据不公开，导致结果难重现
- 反方观点：无
💡 若设置相同，推测LiveBench可能未正确处理某些情况
- 解释：LiveBench编码基准与实际测试经验不符，分数与LeetCode测试经验不匹配，若评估代码和运行次数设置相同，可能是LiveBench自身问题
💡 DeepSeek官方API使用特殊采样器
- 解释：这会使官方API的结果好于LMSYS，可解释原帖中不同测试环境下结果的差异
💡 建议在https://github.com/LiveBench/LiveBench/issues上开一个问题
- 解释：这样有助于解决分数不匹配的情况，即便结果不确定，也能让团队或其他人更重视

金句与有趣评论

“😂 Thank you for running this.”
- 亮点：表达对原帖作者进行测试的感谢，开启积极的讨论氛围。
“🤔 They might have used suboptimal settings, same as qwq - 32b (went from 60 - something to 71).”
- 亮点：通过类比其他模型，提出官方可能存在次优设置的猜测。
“👀 I believe they default the temp to 0.”
- 亮点：从温度参数的角度对官方设置进行推测。
“😉 You can’t fully reproduce it because part of the official evaluation is private.”
- 亮点：明确指出官方数据未公开是结果难以重现的原因。
“💡 DeepSeek official API uses tricky sampler, the results on official API are always better than LMSYS.”
- 亮点：从技术角度解释了不同测试环境下结果差异的原因。

情感分析

总体情感倾向为中性。主要分歧点在于对分数不匹配原因的不同推测，可能是因为大家对官方测试的具体设置、模型特性等方面了解程度不同。

趋势与预测

新兴话题：官方是否在评估中存在未考虑周全的情况。
潜在影响：如果官方评估确实存在问题，可能会影响相关模型使用者对模型性能的准确判断，也可能促使官方对评估方式进行调整。

详细内容：

标题：关于 DeepSeek-V3.1 官方与本地测试结果的差异讨论

在 Reddit 上，有一篇关于 DeepSeek-V3.1 测试结果差异的帖子引起了广泛关注。该帖子指出，Livebench 官方网站报道的平均得分 66.86 明显低于作者自己的测试结果。作者进行了 3 次测试，结果分别为：1. DeepSeek 官方 API，–max-tokens 8192：平均 70.2；2. 第三方提供商，无额外标志：平均 69.7；3. 第三方提供商 –max-tokens 16384 和 –force-temperature 0.3：平均 70.0。帖子还提到使用了 2024-11-25 的检查点，并附上了相关链接[https://www.reddit.com/r/LocalLLaMA/comments/1jkhlk6/comment/mjvqooj/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button]。此贴获得了众多评论，引发了一系列热烈的讨论。

讨论焦点与观点分析：有人认为可能是官方使用了非最优设置，比如温度默认值为 0，就像 qwq-32b 一样，从 60 多提升到 71。也有人提出温度为 0 对于大多数 LLM 来说几乎不是最优的。还有人建议在 https://github.com/LiveBench/LiveBench/issues 上提交问题，引起团队和其他人的关注。有人指出，为减少污染，官方延迟公开最新更新的 30%的问题，所以无法完全重现。如果官方和作者的结果都正确，那么未公开的 30%数据的平均得分是 59.3，这可能表明存在一定程度的过拟合，或者可能是后期发布的问题更难。还有人表示 DeepSeek 官方 API 使用了复杂的采样器，所以官方 API 的结果总是比 LMSYS 更好。

总之，关于 DeepSeek-V3.1 测试结果差异的讨论展现了大家对于测试设置、数据处理等方面的不同看法和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#