原贴链接

大家好！只是想分享一些快讯——这热度是真的！DeepSeek - v3现在是我们基准测试中的最佳开源模型：[在此查看](https://prollm.ai/leaderboard/stack - unseen)。它也是排名前十中最便宜的模型，并且与之前最好的DeepSeek模型相比，在我们的各项基准测试中有20%的性能提升。如果你对我们如何进行基准测试感到好奇，我们在NeurIPS发表了一篇关于我们方法的论文。我们分享了如何整理数据集，以及在使用大型语言模型（LLM）进行自然语言代码评估时进行全面的消融实验。一些关键要点：没有参考答案时，思维链（CoT）会导致大型语言模型（LLM）评判时过度思考；大型语言模型（LLM）作为评判者在编码领域没有自我偏好偏差。自上次发文以来，我们还对排行榜做了一些小的更新：添加了新的基准测试（OpenBook - Q&A和转录）；在多个基准测试中新增了15 - 20个新模型。如果有任何问题或想法，请告诉我！排行榜：[https://prollm.ai/leaderboard/stack - unseen](https://prollm.ai/leaderboard/stack - unseen)；NeurIPS论文：https://arxiv.org/abs/2412.05288。

讨论总结

该讨论围绕DeepSeek - v3被宣称是最佳开源模型展开。部分评论对其在基准测试中的排名表示疑惑，对基准测试中使用的评判模型GPT - 4o的合理性进行质疑。还有人将DeepSeek - v3与其他模型如Gemini 2.0 Flash、Qwen进行比较，表达不同观点，同时也有人针对模型的规模、函数调用评测等方面提出疑问或期望，整体氛围存在争议且观点多元。

主要观点

👍 对DeepSeek - v3在基准测试中的排名低于Sonnet存在疑问
- 支持理由：DeepSeek - v3被宣称最佳开源模型，但在基准测试中排名低于Sonnet令人不解。
- 反对声音：无。
🔥 质疑GPT - 4o作为最佳评判者的合理性
- 正方观点：有其他来源表明GPT - 4o并非最佳评判者，如https://huggingface.co/spaces/AtlaAI/judge - arena。
- 反方观点：有人认为GPT - 4o目前是最好的评判者。
💡 认为一个月前Llama 405在相关测试中处于领先地位
- 解释：以过去的测试结果作为依据，对当前的测试排名情况提出不同看法。
💡 对使用LLM作为评判者的方式表示难以做到真正客观
- 解释：看到过各种论文表明LLM作为评判者有倾向自己答案、评分不稳定等问题。
💡 认为OAI模型变化频繁不利于被同行验证
- 解释：OAI模型几周就变化，使得测试的版本难以被同行再次验证。
💡 提出Llama更适合用于研究
- 解释：相对OAI模型的不稳定，Llama更具稳定性适合研究。

金句与有趣评论

“😂 Gpt - 4o clearly likes its own answers. :)”
- 亮点：以简洁幽默的方式反驳原帖中关于GPT - 4o不具有自我偏好偏差的观点。
“🤔 gemini 2.0 flash is built different”
- 亮点：指出Gemini 2.0 Flash有其独特之处，引发对不同模型特性的思考。
“👀 martinerous: Oh, if only it was a 32B…”
- 亮点：表达对DeepSeek - v3为32B规模的期待，虽简短但体现一种期望。

情感分析

总体情感倾向是存在争议的。主要分歧点在于DeepSeek - v3是否真的是最佳开源模型以及基准测试中的评判模型是否合理等。可能的原因是不同的人对不同模型的了解、测试标准以及使用场景的认知不同。

趋势与预测

新兴话题：对DeepSeek - v3在函数调用方面的评测。
潜在影响：如果对DeepSeek - v3的质疑声持续，可能会影响其在开源模型领域的推广和使用，同时也可能促使相关人员对基准测试的评判模型和测试标准进行重新审视。

详细内容：

标题：DeepSeek-v3 引发的热议

近日，Reddit 上一则关于“DeepSeek-v3 成为 ProLLM 上最佳开源模型”的帖子引起了广泛关注。该帖子称 DeepSeek-v3 在基准测试中表现出色，是当前最佳开源模型，且在成本方面具有优势，相比之前的最佳 DeepSeek 模型有 20%的提升，并提供了相关的基准测试和论文链接。此贴获得了众多评论和讨论。

讨论的焦点主要集中在 DeepSeek-v3 与其他模型的比较以及评判模型的选择上。有人提出为何 DeepSeek-v3 在基准测试中表现不如 Sonnet，并质疑使用 GPT-4o 作为评判模型的合理性，认为应该使用更开放的模型，如 Llama 405b。有用户分享道：“我看了一下，它使用 GPT-4o 作为评判。我不知道为什么人们坚持这样做，因为最近有一篇论文认为 Llama 405b 是最佳评判模型。使用开放模型会更开放和可重复。” 也有人回应称 GPT-4o 是目前用于 LLM-as-a-Judge 任务的最佳评判，还提供了相关表格和实时排行榜的链接。然而，仍有人不认同 GPT-4o 是最佳评判的说法，认为不同来源对此存在争议，并指出使用 LLM 作为评判可能存在偏向自身答案、输出分数不一致等问题，难以做到真正客观。比如有人提到：“我个人不太喜欢 LLM 作为评判的方法，我也看过各种论文表明它们往往倾向于自己的答案，不能输出一致的分数等。对于基准测试，为什么不使用开放模型？”

同时，也有一些其他观点。有人认为 DeepSeek-v3 在整体编码方面更好，有人觉得 GPT-4o 明显偏爱自己的答案，还有人对模型的功能调用、规模等方面提出了疑问和看法。

总体而言，关于 DeepSeek-v3 以及评判模型的选择存在诸多争议和不同见解，大家都在积极探讨如何更客观准确地评估模型的性能。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#