原帖仅为一个链接https://x.com/NickADobos/status/1845911336607531371，无实际可翻译内容

讨论总结

这个讨论是关于Grok - 2和Grok - 2 - mini在Aider’s Code Editing Benchmark中的表现。其中包括性能比较，如与其他免费替代品相比Grok - 2表现欠佳；还涉及到Grok - 2刚推出时因FLUX流行而非智能程度受关注等观点。同时也讨论了Grok - 2的非“woke”（政治正确性）的问题，有肯定（讽刺）、质疑等不同态度。另外还提及Grok相关的其他话题，像Grok 3可能开源、对Grok 2的基准测试、API的速率限制等，整体氛围比较理性，大家各抒己见。

主要观点

👍 Grok - 2的两个版本在比较中表现不如其他免费替代品。
- 支持理由：数据显示Grok - 2和Grok - 2 - mini的得分低于Mistral Large 2等。
- 反对声音：无。
🔥 Grok - 2刚推出时因FLUX流行而非智能程度受关注。
- 正方观点：刚推出时很火但很少有人探讨其智能程度。
- 反方观点：无。
💡 Claude 3.5至今仍被人们称赞。
- 解释：在其他产品表现不佳的对比下，Claude 3.5一直受赞誉。
💡 Grok - 2实际没有基准测试显示的那么好。
- 解释：可能存在过度炒作的情况。
💡 Mistral Large 2在代码编写方面表现出色。
- 解释：被用于编写1500 + 行代码，在比较中性能不错。

金句与有趣评论

“😂 TheHeretic: Good thing it’s not woke!! That is what people need!!1 (/s)”
- 亮点：以讽刺的方式表达对Grok - 2不“woke”的看法。
“🤔 So both versions of Grok - 2 underperform in comparison to their respective free alternatives.”
- 亮点：直接指出Grok - 2性能不如其他免费替代品。
“👀 Reality has a well - known liberal bias.”
- 亮点：提出关于现实倾向的一种观点，引发后续讨论。

情感分析

总体情感倾向比较中立客观。主要分歧点在于对Grok - 2的评价，一部分人认为它表现不佳、存在过度炒作，另一部分人则对其仍有好奇（如猜测大小等）。可能的原因是大家从不同的角度看待Grok - 2，包括性能、商业炒作、自身需求等方面。

趋势与预测

新兴话题：Grok 3开源后的情况可能会引发后续讨论。
潜在影响：如果Grok 3开源且表现出色，可能会对人工智能领域相关产品的市场格局产生影响。

详细内容：

《关于 Grok-2 和 Grok-2-mini 在 Aider 代码编辑基准测试中的表现引发的讨论》

在 Reddit 上，一则关于“Grok-2 和 Grok-2-mini 在 Aider 的代码编辑基准测试”的帖子引起了广泛关注。该帖子包含了链接 https://x.com/NickADobos/status/1845911336607531371 ，目前已获得了众多用户的评论。

讨论的焦点主要集中在 Grok-2 及其迷你版与其他模型的性能比较上。有人指出：“Mistral Large 2 （2407）达到 60.2%，Grok-2 为 58.6%，gpt-4o-mini 是 55.6%，Grok-2-mini 则为 54.9%。所以 Grok-2 的两个版本相较于各自的免费替代品表现不佳。”

有用户表示：“这就是为什么现在没人再谈论 Grok 了，它刚推出的那周很受欢迎，但主要是因为它有 FLUX，实际上没人谈论它有多智能。与此同时，人们至今仍称赞 Claude 3.5。简单的事实是，它并不像基准测试所显示的那样是一个优秀的模型，这在预料之中。”

还有用户称：“是的，我的最爱 Mistral Large 2 ！我喜欢这个模型，做任何事都首选它！它实实在在地为我的 lucid_autonomy 库写了 1500 多行代码。”

此外，讨论中还涉及了一些关于模型特点和评价的观点。有人说：“好在它不‘觉醒’！这才是人们需要的！”还有人认为：“说实话，我不介意它听起来不像一个爱说教的老师，但它也得真的有用，哈哈。”甚至有人提到：“不是有一项研究衡量过‘觉醒’或政治正确性吗，也许 Grok-2 在这方面处于极左位置？”

也有用户发表了不同看法：“现实是中立的，任何被认为的自由派倾向都来自对事实的主观解读，而非现实本身。”“这是个笑话。右翼分子那些‘另类事实’（谎言）等等。显然机智也有自由派倾向。”

值得注意的是，有用户提到：“想到 Grok 3 据说会开源。但目前的结果看起来并不乐观。还在等待 LiveBench 和 Scale AI 的更新。”

总之，关于 Grok-2 和 Grok-2-mini 在代码编辑基准测试中的表现及相关特点，Reddit 上的用户们展开了热烈且深入的讨论，观点多样，各有依据。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#