刚刚看到最新的Livebench结果,DeepSeek的V3(0324版本)表现非常出色!目前它总体排名第10,但真正有趣的是,它是第二高的非思维模型,仅次于GPT - 4.5预览版,并且性能超过Claude 3.7 Sonnet(基础模型,不是思维版本)。我们还得等等看,但这表明如果V3已经超越Claude 3.7(基础版),那么R2可能会是一个非常棒的模型,这个新版本可能会对大型模型产生严峻挑战。
讨论总结
该讨论源于DeepSeek V3 (0324)在LiveBench上超越Claude 3.7的表现。部分人关注DeepSeek V3 (0324)自身存在的问题,如在幻觉排行榜上表现下降、容易给出错误答案、信噪比变差等;也有人对grok - 3 - beta在LiveBench上的表现表示疑惑;还有对不同模型间性能提升、面临困境、成本等方面进行比较的讨论,同时涉及到编码场景下各模型的表现。
主要观点
- 👍 DeepSeek V3 (0324)在幻觉排行榜上表现下降
- 支持理由:数据显示从8%降到4%。
- 反对声音:无。
- 🔥 DeepSeek V3 (0324)会给出权威的错误答案
- 正方观点:有用户在提问时发现其给出错误答案且靠解释才发现是猜测。
- 反方观点:无。
- 💡 Anthropic因产品有限和API成本高面临困境
- 解释:其产品集中在编码和写作,API成本高昂。
- 💡 Open AI因API成本高存在问题,但其多模态能力较好
- 解释:API成本高是问题,但多模态能力是优势。
- 💡 DeepSeek V3版本的每秒标记速度比R1慢
- 解释:多个用户在不同平台体验到速度慢。
金句与有趣评论
- “😂 On hallucination leaderboard it went massively down though compared to original DS V3. 4% vs 8%, not so good for rag.”
- 亮点:用数据直观地表明DeepSeek V3 (0324)在幻觉排行榜上的下降情况。
- “🤔 When I asked new DeepSeek V3 same question, it gave an "authoritative" wrong answer, and only in the depths of the explanation that followed could one see DeepSeek was actually guessing.”
- 亮点:举例说明DeepSeek V3 (0324)会给出错误答案的情况。
- “👀 Gemini Pro 2.5 had a huge lift from reasoning compared to Gemini 2.0 Pro.”
- 亮点:通过对比体现Gemini Pro版本间推理能力的提升。
- “😉 Deepseek - V3 - 0324在非思考模式下仅次于Claude 3.7,且成本仅为其6%,还能轻松击败Claude 3.5。”
- 亮点:比较Deepseek - V3 - 0324与Claude 3.7在非思考模式下的情况,包括成本和性能优势。
- “😒 v3 0324 is really slow on both kluster.ai and OpenRouter.”
- 亮点:指出DeepSeek V3 (0324)在不同平台速度慢的事实。
情感分析
总体情感倾向较为中立理性,主要分歧点在于对DeepSeek V3 (0324)的评价,部分人看到其在LiveBench上超越Claude 3.7的成绩,而部分人关注到它自身存在的如幻觉、速度等问题。可能的原因是大家从不同的使用场景和需求出发看待该模型。
趋势与预测
- 新兴话题:DeepSeek从V3.1到R2是否会有性能提升。
- 潜在影响:如果DeepSeek后续版本性能提升显著,可能会改变模型竞争格局,对其他公司如Anthropic、Open AI的业务产生冲击。
详细内容:
《DeepSeek V3 0324 在 LiveBench 上的表现引发热议》
在 Reddit 上,一则关于 DeepSeek V3 0324 在 LiveBench 上表现的帖子引起了广泛关注。该帖子指出,DeepSeek V3 0324 在 LiveBench 上的总体排名为第 10 位,在非思维模型中排名第二,仅次于 GPT-4.5 Preview,且超越了 Claude 3.7 Sonnet。此帖获得了众多点赞和大量评论,引发了大家对其性能的热烈讨论。
讨论焦点主要集中在以下几个方面: 有人认为从幻觉角度来看,DeepSeek V3 0324 的表现大幅下降,比如[AppearanceHeavy6724]表示,在幻觉排行榜上,它的表现与原始 DS V3 相比有很大差距,从 8%降至 4%,对 rag 来说不太好。 也有人觉得无论从哪个角度看,它的表现都不尽如人意,如[plankalkul - z1]称:“怎么看都不好。” [GortKlaatu_]则表示,从个人角度看,新的 DeepSeek V3 从幻觉角度完全无法使用,给出一个超级简单的提示,它的表现比 1B 模型还差。不过好在基于幻觉提示给出的答案是正确的。 [AppearanceHeavy6724]指出,它很容易出现幻觉,运行时建议低温(0.3),而且已经损坏,需要尽快修复,希望 6 月的下次更新能更好。
在个人经历和案例分享方面,[plankalkul - z1]提到,当询问 Qwen 2.5 72b 关于“GPTQ - R”量化的问题时,它直接表示不知道并给出一些猜测;而当向新的 DeepSeek V3 提出同样问题时,它给出了一个“权威”的错误答案,且只有在后续的解释中才能看出是在猜测。此外,还发现 DeepSeek 的移动应用最近常常对一个问题给出多个答案,然后解释为什么大多数答案不合格,信号噪声比变差了。
还有一些有趣或引发思考的观点,比如[AppearanceHeavy6724]希望保留原来的老 V3 并单纯改进编码。[TheActualStudy]认为与 Claude 的比较意味着在评估编码,Deepseek-V3-0324 很有前景。[akumaburn]表示在实际使用中它会在语法上出错和产生幻觉变量,R1 更适合自己的 Java 代码使用场景,Claude 3.7 也是,而 o3 - mini - high 在实际代码正确性方面胜过它们。[Kasatka06] 提出在自己的经验中,DeepSeek V3 0324 的每秒令牌数比 R1 慢。
总体而言,大家对 DeepSeek V3 0324 的表现看法不一,既有对其超越 Claude 3.7 的肯定,也有对其存在问题的担忧。未来它能否通过更新改进性能,值得我们持续关注。
感谢您的耐心阅读!来选个表情,或者留个评论吧!