原贴链接

Grok 3已经推出。作为一名高级用户,我想知道它是否真的像宣传的那样重要。虽然我知道将Deepseek r1与在10万个H100巨型集群上训练的Grok 3进行比较是不公平的。但我很好奇Grok 3比Deepseek r1好多少。所以,我用自己关于推理、数学、编码和写作的问题对它们进行了测试。以下是我的观察结果。在推理和数学方面,Grok 3和Deepseek r1实际上不相上下。这两个模型都能轻松处理复杂的推理问题和数学问题。在这里选择其中一个似乎没有太大区别。在编码方面,Grok 3领先。它的代码质量、准确性和整体答案都比Deepseek r1好。Deepseek r1也不差,但与Grok 3相比差得远。如果编码是你的主要使用场景,Grok 3显然是赢家。在写作方面,两个模型在创意写作上同样出色,但我个人更喜欢Grok 3的回答。对于我的涉及技术内容的使用场景,我更喜欢Grok 3。Deepseek有它自己的独特之处;我很喜欢它独特的性质。谁应该使用哪个模型呢?如果你专注于编码,Grok 3是更好的选择。对于推理和数学,使用哪个模型都不会错。它们能力相当。如果技术写作是你的优先事项,就我的个人使用场景而言,Grok 3似乎比Deepseek r1略好,对于独特的交流,Deepseek r1无人能敌。如需详细分析,请查看Grok 3与Deepseek r1,以获取更详细的分析,包括具体示例和测试用例。你使用新的Grok 3有什么经验?你觉得这个模型对你的使用场景有用吗?

讨论总结

原帖作者在个人基准上对Grok 3和Deepseek r1进行了比较测试,包括推理、数学、编码和写作等方面。评论者们围绕这一比较展开多方面讨论,有人关注模型的开源性,有人对测试的合理性提出质疑,也有人分享自己使用模型的体验和偏好,整体氛围比较活跃,各种观点相互碰撞。

主要观点

  1. 👍 Deepseek r1因开源特性而被看好
    • 支持理由:开源意味着不受其他公司控制,可由任何人托管。
    • 反对声音:未明确提及。
  2. 🔥 原帖测试存在问题
    • 正方观点:原帖测试数学问题难度低、测试不客观、比较具有主观性等。
    • 反方观点:原帖作者是基于自己的测试需求和情况进行测试的。
  3. 💡 Grok 3在编码方面表现存在争议
    • 部分人认为Grok 3编码功能很好,甚至优于其他模型。
    • 也有人觉得Grok 3在编码方面表现差,是垃圾。
  4. 👍 Deepseek r1在古汉语写作方面表现出色
    • 支持理由:在古汉语文学风格写作方面远超其他模型,可能得益于高质量数据集。
    • 反对声音:无。
  5. 🔥 原帖的比较结果有不同看法
    • 正方观点:有人认为Grok 3和Deepseek r1在推理与数学方面不分上下是因为测试基准饱和,结果不准确。
    • 反方观点:原帖作者是基于自己的测试得出的结论,有一定参考性。

金句与有趣评论

  1. “😂 Deepseek is open source clear winner regardless. Case closed.”
    • 亮点:鲜明地表达出Deepseek r1因开源就是赢家的观点。
  2. “🤔 Grok 3 does something interesting I haven’t seen in other models. It often writes a complete draft of the response in its reasoning block, then repeats it in the actual answer with only minor changes.”
    • 亮点:指出Grok 3独特的回答生成方式。
  3. “👀 If no schizo talks, i don’t want it”
    • 亮点:明确表达对Deepseek r1特定属性的需求。
  4. “😂 Deepseek for schizo talks is great 😂, it’s currently telling me Schrödinger’s cat has unionized and is demanding healthcare”
    • 亮点:生动展示Deepseek r1在特定情境下的有趣回答。
  5. “🤔 Grok 3 is much better than any sota model atm.”
    • 亮点:强调Grok 3优于其他最先进模型。

情感分析

总体情感倾向比较复杂多样。一部分人对Grok 3持积极态度,认为其在编码等方面表现优秀;一部分人对Deepseek r1因开源等特性表示赞赏。主要分歧点在于两个模型在不同任务中的表现、测试的合理性等方面。可能的原因是不同评论者的使用需求、对模型的期望以及个人价值观等存在差异。

趋势与预测

  • 新兴话题:AI发展下一阶段将推理和非推理模型相结合、模型在不同任务中的真实能力比较等可能引发后续讨论。
  • 潜在影响:影响用户对这两个模型的选择倾向,也可能促使模型开发者改进模型性能、优化测试方式等。

详细内容:

《关于 Grok 3 与 Deepseek r1 的热门讨论》

近日,在 Reddit 上有一篇关于 Grok 3 与 Deepseek r1 的测试分享引起了广泛关注。该帖子获得了众多点赞和大量评论。

原帖作者作为一名“鲸鱼用户”,在自己设定的推理、数学、编码和写作等问题上对这两款模型进行了测试,并分享了观察结果。在推理和数学方面,两者难分伯仲;在编码领域,Grok 3 表现更优;在写作方面,两款模型在创意写作上表现相当,但作者个人更倾向于 Grok 3 。同时还探讨了不同场景下谁更适用。详细分析见 Grok 3 vs Deepseek r1

讨论焦点与观点分析:

  • 有人认为 Deepseek 是开源的,是绝对的赢家。例如有人说:“Deepseek 是开源的,这就定局了。”
  • 也有人对测试方法提出质疑,认为基于有限数据得出广泛结论是不负责任的。比如:“只基于每个模型对一个 LeetCode 问题的一个回答来得出结论,这太冒险了。”
  • 有用户分享个人经历,称在让模型从头编写游戏代码的个人基准测试中,Grok 3 明显优于 R1。但 Grok 3 响应时间较长,且免费版的提示次数有限。
  • 有趣的是,有人指出在中文写作,特别是文言文写作方面,R1 表现出色,几乎能与专业的人类作家媲美。

总之,关于 Grok 3 与 Deepseek r1 的讨论呈现出多样化的观点,大家从不同角度探讨了它们的优劣和适用场景。但由于测试方法和个人需求的差异,结论也不尽相同。您对这两款模型有什么看法呢?