Livebench官方网站报告DeepSeek - V3.0324的平均分数为66.86,这明显低于我的测试结果。我已经进行了3次测试,结果如下:1. 使用DeepSeek官方API,–max - tokens 8192:平均70.2;2. 使用第三方供应商,无额外标志:平均69.7;3. 使用第三方供应商,–max - tokens 16384且–force - temperature 0.3:平均70.0。是的,我使用的是2024 - 11 - 25的检查点,如图所示。请问有人能再检查一下看我是否犯了什么错误吗?编辑:可能是30%的私人测试的影响。[https://www.reddit.com/r/LocalLLaMA/comments/1jkhlk6/comment/mjvqooj/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button]
讨论总结
原帖作者发现DeepSeek - V3.1的官方Livebench分数和自己本地多次测试结果不匹配,在Reddit上寻求帮助。评论者从多个角度进行了回应,包括感谢原帖作者测试、猜测官方使用次优设置、提到官方30%的数据未公开影响结果重现、质疑原测试与官方测试的设置是否相同、指出官方API使用特殊采样器等,讨论氛围较为理性,大家都在试图解释分数不匹配的原因。
主要观点
- 👍 官方可能使用了次优设置
- 支持理由:类似qwq - 32b有分数提升情况,官方可能默认温度为0,而对于多数大型语言模型温度为0不是最优
- 反对声音:无
- 🔥 官方Livebench有30%的问题未公开所以无法完全重现评估
- 正方观点:LiveBench - 2024 - 11 - 25有300个新问题,部分数据不公开,导致结果难重现
- 反方观点:无
- 💡 若设置相同,推测LiveBench可能未正确处理某些情况
- 解释:LiveBench编码基准与实际测试经验不符,分数与LeetCode测试经验不匹配,若评估代码和运行次数设置相同,可能是LiveBench自身问题
- 💡 DeepSeek官方API使用特殊采样器
- 解释:这会使官方API的结果好于LMSYS,可解释原帖中不同测试环境下结果的差异
- 💡 建议在https://github.com/LiveBench/LiveBench/issues上开一个问题
- 解释:这样有助于解决分数不匹配的情况,即便结果不确定,也能让团队或其他人更重视
金句与有趣评论
- “😂 Thank you for running this.”
- 亮点:表达对原帖作者进行测试的感谢,开启积极的讨论氛围。
- “🤔 They might have used suboptimal settings, same as qwq - 32b (went from 60 - something to 71).”
- 亮点:通过类比其他模型,提出官方可能存在次优设置的猜测。
- “👀 I believe they default the temp to 0.”
- 亮点:从温度参数的角度对官方设置进行推测。
- “😉 You can’t fully reproduce it because part of the official evaluation is private.”
- 亮点:明确指出官方数据未公开是结果难以重现的原因。
- “💡 DeepSeek official API uses tricky sampler, the results on official API are always better than LMSYS.”
- 亮点:从技术角度解释了不同测试环境下结果差异的原因。
情感分析
总体情感倾向为中性。主要分歧点在于对分数不匹配原因的不同推测,可能是因为大家对官方测试的具体设置、模型特性等方面了解程度不同。
趋势与预测
- 新兴话题:官方是否在评估中存在未考虑周全的情况。
- 潜在影响:如果官方评估确实存在问题,可能会影响相关模型使用者对模型性能的准确判断,也可能促使官方对评估方式进行调整。
详细内容:
标题:关于 DeepSeek-V3.1 官方与本地测试结果的差异讨论
在 Reddit 上,有一篇关于 DeepSeek-V3.1 测试结果差异的帖子引起了广泛关注。该帖子指出,Livebench 官方网站报道的平均得分 66.86 明显低于作者自己的测试结果。作者进行了 3 次测试,结果分别为:1. DeepSeek 官方 API,–max-tokens 8192:平均 70.2;2. 第三方提供商,无额外标志:平均 69.7;3. 第三方提供商 –max-tokens 16384 和 –force-temperature 0.3:平均 70.0。帖子还提到使用了 2024-11-25 的检查点,并附上了相关链接[https://www.reddit.com/r/LocalLLaMA/comments/1jkhlk6/comment/mjvqooj/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button]。此贴获得了众多评论,引发了一系列热烈的讨论。
讨论焦点与观点分析: 有人认为可能是官方使用了非最优设置,比如温度默认值为 0,就像 qwq-32b 一样,从 60 多提升到 71。也有人提出温度为 0 对于大多数 LLM 来说几乎不是最优的。还有人建议在 https://github.com/LiveBench/LiveBench/issues 上提交问题,引起团队和其他人的关注。有人指出,为减少污染,官方延迟公开最新更新的 30%的问题,所以无法完全重现。如果官方和作者的结果都正确,那么未公开的 30%数据的平均得分是 59.3,这可能表明存在一定程度的过拟合,或者可能是后期发布的问题更难。还有人表示 DeepSeek 官方 API 使用了复杂的采样器,所以官方 API 的结果总是比 LMSYS 更好。
总之,关于 DeepSeek-V3.1 测试结果差异的讨论展现了大家对于测试设置、数据处理等方面的不同看法和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!