原贴链接

Grok 3已经推出。作为一名高级用户，我想知道它是否真的像宣传的那样重要。虽然我知道将Deepseek r1与在10万个H100巨型集群上训练的Grok 3进行比较是不公平的。但我很好奇Grok 3比Deepseek r1好多少。所以，我用自己关于推理、数学、编码和写作的问题对它们进行了测试。以下是我的观察结果。在推理和数学方面，Grok 3和Deepseek r1实际上不相上下。这两个模型都能轻松处理复杂的推理问题和数学问题。在这里选择其中一个似乎没有太大区别。在编码方面，Grok 3领先。它的代码质量、准确性和整体答案都比Deepseek r1好。Deepseek r1也不差，但与Grok 3相比差得远。如果编码是你的主要使用场景，Grok 3显然是赢家。在写作方面，两个模型在创意写作上同样出色，但我个人更喜欢Grok 3的回答。对于我的涉及技术内容的使用场景，我更喜欢Grok 3。Deepseek有它自己的独特之处；我很喜欢它独特的性质。谁应该使用哪个模型呢？如果你专注于编码，Grok 3是更好的选择。对于推理和数学，使用哪个模型都不会错。它们能力相当。如果技术写作是你的优先事项，就我的个人使用场景而言，Grok 3似乎比Deepseek r1略好，对于独特的交流，Deepseek r1无人能敌。如需详细分析，请查看Grok 3与Deepseek r1，以获取更详细的分析，包括具体示例和测试用例。你使用新的Grok 3有什么经验？你觉得这个模型对你的使用场景有用吗？

讨论总结

原帖作者在个人基准上对Grok 3和Deepseek r1进行了比较测试，包括推理、数学、编码和写作等方面。评论者们围绕这一比较展开多方面讨论，有人关注模型的开源性，有人对测试的合理性提出质疑，也有人分享自己使用模型的体验和偏好，整体氛围比较活跃，各种观点相互碰撞。

主要观点

👍 Deepseek r1因开源特性而被看好
- 支持理由：开源意味着不受其他公司控制，可由任何人托管。
- 反对声音：未明确提及。
🔥 原帖测试存在问题
- 正方观点：原帖测试数学问题难度低、测试不客观、比较具有主观性等。
- 反方观点：原帖作者是基于自己的测试需求和情况进行测试的。
💡 Grok 3在编码方面表现存在争议
- 部分人认为Grok 3编码功能很好，甚至优于其他模型。
- 也有人觉得Grok 3在编码方面表现差，是垃圾。
👍 Deepseek r1在古汉语写作方面表现出色
- 支持理由：在古汉语文学风格写作方面远超其他模型，可能得益于高质量数据集。
- 反对声音：无。
🔥 原帖的比较结果有不同看法
- 正方观点：有人认为Grok 3和Deepseek r1在推理与数学方面不分上下是因为测试基准饱和，结果不准确。
- 反方观点：原帖作者是基于自己的测试得出的结论，有一定参考性。

金句与有趣评论

“😂 Deepseek is open source clear winner regardless. Case closed.”
- 亮点：鲜明地表达出Deepseek r1因开源就是赢家的观点。
“🤔 Grok 3 does something interesting I haven’t seen in other models. It often writes a complete draft of the response in its reasoning block, then repeats it in the actual answer with only minor changes.”
- 亮点：指出Grok 3独特的回答生成方式。
“👀 If no schizo talks, i don’t want it”
- 亮点：明确表达对Deepseek r1特定属性的需求。
“😂 Deepseek for schizo talks is great 😂, it’s currently telling me Schrödinger’s cat has unionized and is demanding healthcare”
- 亮点：生动展示Deepseek r1在特定情境下的有趣回答。
“🤔 Grok 3 is much better than any sota model atm.”
- 亮点：强调Grok 3优于其他最先进模型。

情感分析

总体情感倾向比较复杂多样。一部分人对Grok 3持积极态度，认为其在编码等方面表现优秀；一部分人对Deepseek r1因开源等特性表示赞赏。主要分歧点在于两个模型在不同任务中的表现、测试的合理性等方面。可能的原因是不同评论者的使用需求、对模型的期望以及个人价值观等存在差异。

趋势与预测

新兴话题：AI发展下一阶段将推理和非推理模型相结合、模型在不同任务中的真实能力比较等可能引发后续讨论。
潜在影响：影响用户对这两个模型的选择倾向，也可能促使模型开发者改进模型性能、优化测试方式等。

详细内容：

《关于 Grok 3 与 Deepseek r1 的热门讨论》

近日，在 Reddit 上有一篇关于 Grok 3 与 Deepseek r1 的测试分享引起了广泛关注。该帖子获得了众多点赞和大量评论。

原帖作者作为一名“鲸鱼用户”，在自己设定的推理、数学、编码和写作等问题上对这两款模型进行了测试，并分享了观察结果。在推理和数学方面，两者难分伯仲；在编码领域，Grok 3 表现更优；在写作方面，两款模型在创意写作上表现相当，但作者个人更倾向于 Grok 3 。同时还探讨了不同场景下谁更适用。详细分析见 Grok 3 vs Deepseek r1。

讨论焦点与观点分析：

有人认为 Deepseek 是开源的，是绝对的赢家。例如有人说：“Deepseek 是开源的，这就定局了。”
也有人对测试方法提出质疑，认为基于有限数据得出广泛结论是不负责任的。比如：“只基于每个模型对一个 LeetCode 问题的一个回答来得出结论，这太冒险了。”
有用户分享个人经历，称在让模型从头编写游戏代码的个人基准测试中，Grok 3 明显优于 R1。但 Grok 3 响应时间较长，且免费版的提示次数有限。
有趣的是，有人指出在中文写作，特别是文言文写作方面，R1 表现出色，几乎能与专业的人类作家媲美。

总之，关于 Grok 3 与 Deepseek r1 的讨论呈现出多样化的观点，大家从不同角度探讨了它们的优劣和适用场景。但由于测试方法和个人需求的差异，结论也不尽相同。您对这两款模型有什么看法呢？

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#