TLDR:在对[lineage - bench](https://github.com/fairydreaming/lineage - bench)基准测试结果(lineage - 128)进行McNemar统计检验后,DeepSeek R1和Perplexity R1 1776的逻辑推理性能没有统计学上的显著差异。它们的表现同样良好。
引言 你可能看过我最近包含DeepSeek R1和Perplexity R1 1776模型基准测试结果的帖子:
- https://www.reddit.com/r/LocalLLaMA/comments/1izbmbb/perplexity_r1_1776_performs_worse_than_deepseek/
- https://www.reddit.com/r/LocalLLaMA/comments/1j3hjxb/perplexity_r1_1776_climbed_to_first_place_after/ 如果没有,简单总结一下:我在我的逻辑推理[lineage - bench](https://github.com/fairydreaming/lineage - bench)基准测试中测试了这两个模型。最初,R1 1776与原始的DeepSeek R1相比表现差很多。在Perplexity修复了服务栈的问题后,当通过OpenRouter测试时,两个模型开始表现同样好(R1 1776似乎略好一点,但差异非常小)。 这个问题一直困扰着我,这两个模型之间是否真的存在有意义的差异,所以我决定好好利用我剩余的OpenRouter点数,做一个统计假设检验来回答这个问题。
初步计划 经过快速研究,我决定使用McNemar检验来查看两个模型的性能是否存在统计学上的显著差异。它在机器学习中常用于比较分类器模型的性能。我的情况与之足够相似。 [https://machinelearningmastery.com/mcnemars - test - for - machine - learning/](https://machinelearningmastery.com/mcnemars - test - for - machine - learning/) 由于两个模型在较小的lineage - bench问题规模下都有近乎完美的准确性,我决定生成另外一组400个lineage - 128测验题,并在这个新的数据集上测试两个模型。这样做的逻辑是,增加的难度将使两个模型性能之间的差异(如果有的话)更加明显。
基准测试结果 首先快速看一下lineage - 128的结果:
Nr | model_name | lineage - 128 |
---|---|---|
1 | deepseek/deepseek - r1 | 0.688 |
2 | perplexity/r1 - 1776 | 0.685 |
正如你所看到的,两个模型的准确性几乎相等。而且在这个问题规模下,我的基准测试还远未饱和。 |
列联表 下一步是根据两个模型对lineage - 128测验题的答案创建一个列联表。
… | DeepSeek R1正确 | DeepSeek R1错误 |
---|---|---|
R1 1776正确 | 203 | 71 |
R1 1776错误 | 73 | 53 |
McNemar检验 在我们的案例中,McNemar检验用于检查在一个模型错误而另一个模型正确的题目上,一个模型是否比另一个模型更有可能正确。 这里的原假设是,模型A正确而模型B错误的题目比例与模型B正确而模型A错误的题目比例没有差异。 我们已经可以看到这几乎是相同的值,但我们还是计算一下检验统计量吧。 X^(2)=(71 - 73)^(2)/(71 + 73)=0.027(7) 这个检验统计量值对应的p值约为0.868。由于p>0.05,我们不能拒绝原假设。因此,两个模型之间的性能差异没有统计学意义。
结论 在lineage - 128中,DeepSeek R1和Perplexity R1 1776的性能没有统计学上的显著差异。但也许由于某种原因,仅在lineage - 64中存在统计学上的显著差异呢?我可以生成更多样本并且…哦不,我的OpenRouter点数快用完了。 PS. 在OpenRouter中寻找DeepSeek R1提供商时,我在200个lineage - 128测验题中测试了Nebius AI、Minimax和Parasail。Nebius得分为0.595,Minimax为0.575,Parasail为0.680。我使用Parasail没有问题 - 它相当快而且比其他的更便宜,绝对值得推荐。
讨论总结
原帖对DeepSeek R1和Perplexity R1 1776在lineage - 128逻辑推理性能测试,经McNemar’s测试无统计学显著差异。评论涉及多方面,包括对模型是否存在偏向性的怀疑与讨论,有人感谢原帖作者工作,有人指出reddit存在不看帖就踩的不理性行为,也有人提出数据统计方面的想法,还有人对模型差异发表补充观点。整体氛围较为理性,不同观点都有一定的讨论深度。
主要观点
- 👍 原帖作者的工作值得感谢。
- 支持理由:原帖作者做了模型性能测试并分享结果,付出了工作。
- 反对声音:无。
- 🔥 对模型测试结果理解的同时,对模型偏向性转变表示怀疑。
- 正方观点:从以往经验看模型可能存在偏向性转变情况。
- 反方观点:无明确反方观点,后续讨论更多是对模型能否做到无偏向性进行深入探讨。
- 💡 存在部分人不看帖就因个人喜好进行踩的操作,这种行为不合理。
- 解释:这类行为违背理性对待帖子内容的原则,仅仅基于个人喜好而非内容本身操作。
- 💡 不应将失败项目计入错误统计。
- 解释:R1通过OpenRouter不可靠,1776可能也有类似可靠性问题,不计入可能解释异常值。
- 💡 1776未经过重大重新训练所以两者不应有大差异,但训练会改变模型,所以两者仍可能存在差异。
- 解释:从模型训练角度分析两者差异的可能性。
金句与有趣评论
- “😂 我当然像往常一样怀疑这是在中国去偏向化还是只是偏向转变为西方意识形态。”
- 亮点:直接表达对模型偏向性的怀疑,引发关于模型偏向性的讨论。
- “🤔 没有这样一种无偏向/客观的模型,当涉及到政治话题的时候。”
- 亮点:提出在政治话题下模型难以做到无偏向客观,是对模型偏向性讨论的深入观点。
- “👀 reallmconnoisseur:Thanks for the work you put into this.”
- 亮点:表达对原帖作者工作的认可与感谢,积极的互动态度。
- “😉 it might be a good idea to not count failed items (because of failed parsing etc) in the incorrect tally.”
- 亮点:从数据统计角度提出新颖的想法。
- “💡 应该没有大的差异,因为1776不是大规模重新训练的。仍然可能存在一些差异,因为任何训练都会改变模型。”
- 亮点:从模型训练影响角度理性分析两者差异情况。
情感分析
总体情感倾向较为中性。主要分歧点在于模型是否存在偏向性,以及部分人对reddit上不理性行为(不看帖就踩)的看法。可能的原因是对于模型性能背后的影响因素有不同的关注重点,以及不同的reddit使用习惯和态度。
趋势与预测
- 新兴话题:关于模型可靠性以及数据统计方式的优化可能会引发后续讨论。
- 潜在影响:如果能进一步探讨模型偏向性问题,可能会对人工智能领域如何确保模型的公平性、客观性产生一定影响;对reddit社区而言,如何减少不理性行为可能会成为改善社区氛围的一个思考方向。
详细内容:
《关于 DeepSeek R1 和 Perplexity R1 1776 逻辑推理性能差异的热门讨论》
在 Reddit 上,有一篇题为“Is there a statistically significant difference in logical reasoning performance between DeepSeek R1 and Perplexity R1 1776?”的帖子引发了热烈关注。该帖子获得了众多点赞和大量评论。原帖主要探讨了对 DeepSeek R1 和 Perplexity R1 1776 这两个模型逻辑推理性能的统计分析。
作者先介绍了此前关于这两个模型的基准测试结果,并阐述了为解答两个模型是否存在有意义的性能差异,决定利用剩余的 OpenRouter 信用进行统计假设检验。经过一系列测试和计算,最终得出在 lineage-128 中,两个模型的性能差异在统计学上不显著的结论。
在讨论中,主要观点包括: 有人认为对于技术相关的话题,始终存在一定的怀疑,担心是否存在偏向西方意识形态的情况。 也有人指出在涉及政治话题时,不存在无偏差或客观的模型。 还有人就道德与伦理的定义展开讨论,认为道德具有主观性,而原帖中对某些概念的定义存在偏差。
有用户分享道:“在我看来,即使没有当前的限制,任何涉及道德或接近道德的问题,都没有人或事物能够给出答案,也许我们能够到达判断事物是更腐败还是更少腐败的阶段。”
对于这些讨论,存在一定的共识,即对于模型的公正性和客观性存在质疑。
特别有见地的观点如认为人类社会总体上在寻求一种共同的规范,如同曾经的宗教、法西斯主义等。
总的来说,这场讨论让我们更深入地思考了模型性能以及相关的道德、伦理等问题。
感谢您的耐心阅读!来选个表情,或者留个评论吧!