原贴链接

刚刚看到最新的Livebench结果，DeepSeek的V3（0324版本）表现非常出色！目前它总体排名第10，但真正有趣的是，它是第二高的非思维模型，仅次于GPT - 4.5预览版，并且性能超过Claude 3.7 Sonnet（基础模型，不是思维版本）。我们还得等等看，但这表明如果V3已经超越Claude 3.7（基础版），那么R2可能会是一个非常棒的模型，这个新版本可能会对大型模型产生严峻挑战。

讨论总结

该讨论源于DeepSeek V3 (0324)在LiveBench上超越Claude 3.7的表现。部分人关注DeepSeek V3 (0324)自身存在的问题，如在幻觉排行榜上表现下降、容易给出错误答案、信噪比变差等；也有人对grok - 3 - beta在LiveBench上的表现表示疑惑；还有对不同模型间性能提升、面临困境、成本等方面进行比较的讨论，同时涉及到编码场景下各模型的表现。

主要观点

👍 DeepSeek V3 (0324)在幻觉排行榜上表现下降
- 支持理由：数据显示从8%降到4%。
- 反对声音：无。
🔥 DeepSeek V3 (0324)会给出权威的错误答案
- 正方观点：有用户在提问时发现其给出错误答案且靠解释才发现是猜测。
- 反方观点：无。
💡 Anthropic因产品有限和API成本高面临困境
- 解释：其产品集中在编码和写作，API成本高昂。
💡 Open AI因API成本高存在问题，但其多模态能力较好
- 解释：API成本高是问题，但多模态能力是优势。
💡 DeepSeek V3版本的每秒标记速度比R1慢
- 解释：多个用户在不同平台体验到速度慢。

金句与有趣评论

“😂 On hallucination leaderboard it went massively down though compared to original DS V3. 4% vs 8%, not so good for rag.”
- 亮点：用数据直观地表明DeepSeek V3 (0324)在幻觉排行榜上的下降情况。
“🤔 When I asked new DeepSeek V3 same question, it gave an "authoritative" wrong answer, and only in the depths of the explanation that followed could one see DeepSeek was actually guessing.”
- 亮点：举例说明DeepSeek V3 (0324)会给出错误答案的情况。
“👀 Gemini Pro 2.5 had a huge lift from reasoning compared to Gemini 2.0 Pro.”
- 亮点：通过对比体现Gemini Pro版本间推理能力的提升。
“😉 Deepseek - V3 - 0324在非思考模式下仅次于Claude 3.7，且成本仅为其6%，还能轻松击败Claude 3.5。”
- 亮点：比较Deepseek - V3 - 0324与Claude 3.7在非思考模式下的情况，包括成本和性能优势。
“😒 v3 0324 is really slow on both kluster.ai and OpenRouter.”
- 亮点：指出DeepSeek V3 (0324)在不同平台速度慢的事实。

情感分析

总体情感倾向较为中立理性，主要分歧点在于对DeepSeek V3 (0324)的评价，部分人看到其在LiveBench上超越Claude 3.7的成绩，而部分人关注到它自身存在的如幻觉、速度等问题。可能的原因是大家从不同的使用场景和需求出发看待该模型。

趋势与预测

新兴话题：DeepSeek从V3.1到R2是否会有性能提升。
潜在影响：如果DeepSeek后续版本性能提升显著，可能会改变模型竞争格局，对其他公司如Anthropic、Open AI的业务产生冲击。

详细内容：

《DeepSeek V3 0324 在 LiveBench 上的表现引发热议》

在 Reddit 上，一则关于 DeepSeek V3 0324 在 LiveBench 上表现的帖子引起了广泛关注。该帖子指出，DeepSeek V3 0324 在 LiveBench 上的总体排名为第 10 位，在非思维模型中排名第二，仅次于 GPT-4.5 Preview，且超越了 Claude 3.7 Sonnet。此帖获得了众多点赞和大量评论，引发了大家对其性能的热烈讨论。

讨论焦点主要集中在以下几个方面：有人认为从幻觉角度来看，DeepSeek V3 0324 的表现大幅下降，比如[AppearanceHeavy6724]表示，在幻觉排行榜上，它的表现与原始 DS V3 相比有很大差距，从 8%降至 4%，对 rag 来说不太好。也有人觉得无论从哪个角度看，它的表现都不尽如人意，如[plankalkul - z1]称：“怎么看都不好。” [GortKlaatu_]则表示，从个人角度看，新的 DeepSeek V3 从幻觉角度完全无法使用，给出一个超级简单的提示，它的表现比 1B 模型还差。不过好在基于幻觉提示给出的答案是正确的。 [AppearanceHeavy6724]指出，它很容易出现幻觉，运行时建议低温（0.3），而且已经损坏，需要尽快修复，希望 6 月的下次更新能更好。

在个人经历和案例分享方面，[plankalkul - z1]提到，当询问 Qwen 2.5 72b 关于“GPTQ - R”量化的问题时，它直接表示不知道并给出一些猜测；而当向新的 DeepSeek V3 提出同样问题时，它给出了一个“权威”的错误答案，且只有在后续的解释中才能看出是在猜测。此外，还发现 DeepSeek 的移动应用最近常常对一个问题给出多个答案，然后解释为什么大多数答案不合格，信号噪声比变差了。

还有一些有趣或引发思考的观点，比如[AppearanceHeavy6724]希望保留原来的老 V3 并单纯改进编码。[TheActualStudy]认为与 Claude 的比较意味着在评估编码，Deepseek-V3-0324 很有前景。[akumaburn]表示在实际使用中它会在语法上出错和产生幻觉变量，R1 更适合自己的 Java 代码使用场景，Claude 3.7 也是，而 o3 - mini - high 在实际代码正确性方面胜过它们。[Kasatka06] 提出在自己的经验中，DeepSeek V3 0324 的每秒令牌数比 R1 慢。

总体而言，大家对 DeepSeek V3 0324 的表现看法不一，既有对其超越 Claude 3.7 的肯定，也有对其存在问题的担忧。未来它能否通过更新改进性能，值得我们持续关注。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#