原贴链接

在GPT - 4问世近两年后,我们终于有了一个与之和Claude 3.5 Sonnet相当的开源模型。而且成本只是它们的一小部分。

现在它被大肆炒作,这也理所当然。但我想知道Deepseek v3是否真的那么令人印象深刻。

我用我的个人问题集测试了该模型,以在推理、数学、编码和写作方面对其性能进行基准测试。

以下是我的发现:

  • 在推理和数学问题上,Deepseek v3的表现优于GPT - 4o和Claude 3.5 Sonnet。
  • 在编码方面,Claude无人能及。只有o1有机会与之一较高下。
  • 在写作方面Claude再次更胜一筹,但我注意到Deepseek的回答模式,甚至用词,有时与GPT - 4o惊人地相似。我在我的博客文章中分享了一个例子。

Deepseek可能使用GPT - 4o生成的数据来训练模型。你甚至能感觉到它是如何模仿GPT - 4o的说话风格的。

谁应该使用Deepseek v3?

  • 如果你使用过GPT - 4o,你可以放心地切换;它是同样的东西,但成本低得多。有时甚至更好。
  • v3是构建AI应用程序最理想的模型。考虑到性能,与其他模型相比,它超级便宜。
  • 对于日常使用,我仍然更喜欢Claude 3.5 Sonnet。

如需完整分析和我对Deepseek v3的记录,请查看博客文章:Notes on Deepseek v3

你对新的Deepseek v3有什么体验?你发现这个模型对你的使用场景有用吗?

讨论总结

该讨论主要围绕Deepseek v3展开,将其与GPT - 4o、Claude 3.5 Sonnet等模型在推理、编码、写作等多方面进行比较,同时涉及到其性价比、数据安全等方面。大家对Deepseek v3的看法褒贬不一,既有认可其优势的,也有指出其不足和表示怀疑的。

主要观点

  1. 👍 Deepseek v3价格便宜,可作为非隐私敏感简单任务中gpt4o的良好替代品
    • 支持理由:相比gpt4o成本低很多,性能在一些场景下相当甚至更好。
    • 反对声音:Google免费的Gemini模型也能满足此需求。
  2. 🔥 在编码方面,Claude 3.5 Sonnet表现优于Deepseek v3
    • 正方观点:多个评论者在不同的编程语言测试中得出Claude 3.5 Sonnet表现更好的结论。
    • 反方观点:有评论者认为在Linux接口操作方面Deepseek v3的知识集更与时俱进,在编码方面更倾向于Deepseek v3。
  3. 💡 Deepseek v3在小说写作中存在很快重复自身的问题
    • 解释:评论者指出在大概8000个token之前表现还不错,但之后就开始重复自身,并且长文本输出时会出现混乱等情况。
  4. 💪 原帖作者测试Deepseek v3时可能存在失误
    • 解释:有评论者指出原帖在测试时可能把Deepseek R1和v3当作一个模型进行测试了。
  5. 🤔 对于Deepseek v3基于GPT - 4o数据训练存在质疑
    • 解释:包括对这种训练方式是否合法以及是否意味着会更好表示怀疑。

金句与有趣评论

  1. “😂 我在编码方面更喜欢它,我正在做大量的Linux接口工作,它的知识集似乎可能更与时俱进。”
    • 亮点:指出Deepseek v3在特定编码领域(Linux接口)知识方面的优势。
  2. “🤔 在我的经验中,它比4o好且接近Sonnet,你可能只需要一个以上的提示就能得到你想要的。”
    • 亮点:强调Deepseek v3在性能上接近其他模型且获取结果的方式。
  3. “👀 所有模型在Python方面都有可比的质量,Claude略占优势。”
    • 亮点:对不同模型在Python语言方面的表现进行简洁概括。
  4. “😮 我以为我是唯一一个觉得DS3比不上Sonnet的人,这里有时就是这样炒作的!”
    • 亮点:表达出对Deepseek v3被过度炒作的看法。
  5. “💥 我按照教程将它与vscode上的Cline集成,在我看来,仅编码工具这一方面就把GPT - 4o打得落花流水。”
    • 亮点:通过与GPT - 4o对比,突出Deepseek v3在编码工具方面的优势。

情感分析

总体情感倾向比较复杂,既有正面肯定的(如认为Deepseek v3便宜、在某些方面表现不错等),也有负面质疑的(如在写作方面的问题、可能存在测试失误、数据安全担忧等)。主要分歧点在于Deepseek v3的性能是否真的如宣传那样,在不同任务场景下(编码、写作等)与其他模型相比到底谁更优。产生这些分歧的原因是不同用户有不同的使用场景和测试结果,并且对模型的期望和关注点也不同。

趋势与预测

  • 新兴话题:Deepseek v3与Qwen的比较、Deepseek v3在本地运行的硬件要求和价格比较。
  • 潜在影响:如果Deepseek v3在性能和成本方面确实有优势,可能会影响到用户在人工智能模型选择上的决策,推动更多人使用开源模型;对模型开发者来说,可能促使他们改进自己的模型以提高竞争力。

详细内容:

《关于 Deepseek v3 的热门讨论》

近日,Reddit 上一则关于“Notes on Deepseek v3: Is it truly better than GPT-4o and 3.5 Sonnet?”的帖子引发了热烈讨论。该帖发布后获得了众多关注,评论数众多。

原帖作者对 Deepseek v3 进行了多方面的测试,包括推理、数学、编码和写作等,并分享了测试结果。指出在推理和数学问题上,Deepseek v3 表现优于 GPT-4o 和 Claude 3.5 Sonnet;在编码方面,Claude 无可匹敌;写作方面,Claude 更优,但 Deepseek 的响应模式有时与 GPT-4o 相似。还探讨了 Deepseek v3 的适用人群,并提供了相关博客文章的链接供大家参考。

讨论焦点主要集中在 Deepseek v3 与其他模型在不同领域的表现差异,以及其适用性和潜在问题。有人表示,对于一些简单任务且不涉及隐私敏感的情况,Deepseek v3 因其价格低廉可替代 GPT-4o;也有人认为 Claude 在编码方面表现出色,是日常工作的首选。

有用户分享道:“对于我来说,在编码方面它不如 3.5 Sonnet,但价格便宜,是 GPT-4o 的良好替代品。”还有用户提到:“Claude 是最令人享受的工作模型,具有真正的大语言模型的个性。”

关于 Deepseek v3 在不同编程语言中的表现,看法各异。有人认为在 Python 方面,各模型质量相当,Claude 略有优势;在 React 和 Nodejs 方面,Claude 3.5 Sonnet 表现更好。

然而,也有用户指出 Deepseek v3 在长篇写作方面存在问题,如重复性高、容易陷入循环等。但在管理代理工作流程方面,它表现出色,且价格低廉。

总之,关于 Deepseek v3 的讨论呈现出多样化的观点,大家在其性能、适用场景和潜在风险等方面各抒己见。那么,您是否也尝试过 Deepseek v3 呢?对于它的表现您又有怎样的看法?