虽然完整的R1似乎性能良好,但蒸馏模型的性能似乎相当不稳定。具体而言,DeepSeek公布的基准测试声称像DeepSeek - R1 - Distill - Qwen - 32B这样的模型在编码方面优于其他SOTA(最先进的)模型,例如Claude Sonnet。但有很多报告称人们并未观察到这一情况,甚至有些报告称R1 - 蒸馏模型甚至不如其基础模型。我基本可以证实这一点并展示一些数据,包括反驳这可能是由于量化或Llama中的错误这一假设。本质上,DeepSeek声称其蒸馏模型的出色结果无法复现。在数学性能上有提升,但在其他方面明显更差。我希望DeepSeek的人员能查看一下,看看是否有问题,因为蒸馏模型是许多用户唯一能运行的模型,如果能像宣传的那样工作会让用户很高兴。我使用了内部基准测试和MMLU - Pro的抽样子集。MMLU在DeepSeek的结果中被提及,他们还专门报告了DeepSeek - R1 - Distill - Qwen - 32B的结果,优于o1 - mini和R3,所以这个任务似乎足够接近,性能不应完全不同(可参考其博客文章)。下面包含了这些结果,特别是对于Qwen - 7B,可以看到与原始模型相比性能下降,这不是由于量化(运行的是全精度版本),也不是由于llama.cpp的问题,因为我是按照DeepSeek自己推荐的,用vLLM并以原始精度运行的。Qwen - 32B也有同样的情况,不过我无法运行其未量化版本。接着列出了Qwen、DeepSeek - R1 - Distill - Qwen等不同版本模型在不同任务(如计算机科学、经济学等)下的性能数据作为参考,还列出了其他更大模型如Llama - 3.3 - 70B - Instruct - Q4_K_L、Qwen2.5 - 72B - Instruct - IQ4_XS、deepseek / deepseek - chat(R3通过官方API)的性能数据。
讨论总结
原帖声称DeepSeek - R1 - Distill模型的结果未能达到其宣称的性能,通过自身测试给出了相关数据。评论者从多个角度进行讨论,包括有人确认在不同模型容量下观察到类似结果,也有人对原帖作者的测试方法(如使用MMLU的抽样子集)表示质疑,还涉及到模型模板、量化对性能的影响、与其他模型的比较等多方面内容,同时也有评论者提出了一些可能改进探究的方式或给出自己在使用模型时遇到的特殊情况。
主要观点
- 👍 原帖作者表示DeepSeek - R1 - Distill模型结果难以复现
- 支持理由:给出自己测试数据,包括多种模型在不同任务下的性能对比。
- 反对声音:部分人表示自己观察到不错结果或者质疑原帖测试方式。
- 🔥 Billy462认为测试应采用报告中的基准并尽量贴近原设置
- 正方观点:认为原帖使用抽样子集进行测试不合理,第一步应该按照报告中的基准测试且接近原设置。
- 反方观点:有人觉得原帖作者使用子集足以显示效果,全量运行耗时久,且报告可能有问题。
- 💡 xadiant对DeepSeek模型模板表示疑惑
- 解释:对模型模板中的下划线和分隔符不解,怀疑模板有根本性问题导致结果不好。
- 💡 评论者称自己联系DeepSeek询问基准配置被无视
- 解释:多次联系DeepSeek询问基准配置,但未得到回应。
- 💡 ortegaalfredo称在代码审计方面R1 - Distill - Qwen - 32B比QwQ效果更好
- 解释:在自己生产环境下做代码审计得出该结论,且在自己网站提供模型后人们持续使用。
金句与有趣评论
- “😂 Zestyclose_Yak_3174:I can confirm that I’ve observed the same inconsistencies and disappointing results in both 32B and 70B.”
- 亮点:直接呼应原帖,表明在特定模型容量下也有相同情况。
- “🤔 Billy462:Why on earth are you doing this on a “sampled subset” of mmlu. First step should be to take a benchmark they report and run it yourself with as close to their settings as possible.”
- 亮点:对原帖测试方式提出根本性的质疑。
- “👀 xadiant:I am troubled about their template. What are those weird underscores and dividers?”
- 亮点:从模型模板这个独特角度提出疑惑。
- “🤔 我联系DeepSeek这件事好几次了,询问他们的基准配置,他们总是无视我的消息,嗯……”
- 亮点:揭示出DeepSeek对相关疑问无视的情况。
- “😂 ortegaalfredo:I run a small agent in production doing code auditing and R1 - Distill - Qwen - 32B is clearly better than QwQ.”
- 亮点:在大家普遍讨论性能不佳的情况下给出不同的比较结果。
情感分析
总体情感倾向为质疑和探索性。主要分歧点在于原帖作者得出DeepSeek - R1 - Distill模型结果难以复现这个结论是否合理,原因是大家对测试方法、模型本身、数据等方面有不同的理解和经验。例如对于原帖作者使用MMLU抽样子集测试,有人认可有人反对;对于模型的性能表现,不同人在不同的使用场景下(如代码审计)也有不同的结论。
趋势与预测
- 新兴话题:可能会进一步探究模型模板是否存在问题以及如何获取DeepSeek完整的评估数据。
- 潜在影响:如果模型结果真的难以复现且是模型本身问题,可能影响该模型在用户中的信任度和使用率;如果是测试方法等问题,可能会促使大家在模型评估方面建立更规范统一的标准。
详细内容:
标题:DeepSeek-R1-Distill 模型性能引发激烈讨论
近日,Reddit 上一篇关于 DeepSeek-R1-Distill 模型性能的帖子引发了广泛关注。该帖子称,尽管完整的 R1 模型似乎性能良好,但蒸馏模型的表现却参差不齐。此帖获得了众多点赞和大量评论。
帖子中指出,DeepSeek 所公布的如 DeepSeek-R1-Distill-Qwen-32B 等蒸馏模型,声称在某些方面优于其他 SOTA 模型,然而实际情况是许多用户并未观察到这一优势,甚至有用户表示这些蒸馏模型的性能不如基础模型。发帖者还展示了一系列数据来证实这一观点,并对可能导致这一情况的原因进行了分析,如排除了量化或 Llama 中的错误等。
讨论中,主要观点如下: 有人表示观察到了同样的不一致和令人失望的结果。也有人质疑是否是公共的分词器或聊天模板有误,还提到了相关链接。还有人认为应该按照 DeepSeek 报告的基准进行测试。 有用户指出量化不是问题,非量化模型的性能也类似。也有人对模板提出了质疑,猜测可能存在根本问题导致结果不佳。还有用户联系 DeepSeek 询问基准配置,但未得到回复。
同时,也有不同的声音。例如,有用户在生产环境中运行相关模型进行代码审计,认为 R1 - Distill - Qwen - 32B 明显比 QwQ 更好。
这场讨论的共识在于对 DeepSeek-R1-Distill 模型性能的关注和对其真实表现的探究。特别有见地的观点如对模型量化和模板问题的深入分析,丰富了讨论的内容。
目前,关于 DeepSeek-R1-Distill 模型性能的争议仍在继续,究竟是模型本身的问题,还是测试方法或其他因素的影响,还需要进一步的探讨和研究。
感谢您的耐心阅读!来选个表情,或者留个评论吧!