Gemini 2.5 Pro实验版已经推出，并且在基准测试中占据主导地位！谷歌DeepMind刚刚推出了他们的“最智能的AI模型”。

主要亮点：

在LMArena上排名第一且优势明显——在人类偏好测试中胜过GPT - 4.5、Claude 3.7 Sonnet等。
在“人类终极考试”中达到18.8%（无工具辅助）——这是由专家设计用于测试推理极限的数据集。
在数学和科学方面表现卓越——在GPQA Diamond和AIME 2025（数学竞赛基准）中领先。
100万标记的上下文窗口（即将推出200万）——能够处理大规模数据集、代码库和多模态输入。
高级编码——在SWE - Bench验证中达到63.8%（智能编码评估），并且能够通过单个提示生成完整的应用程序。主要亮点：在LMArena上排名第一且优势明显——在人类偏好测试中胜过GPT - 4.5、Claude 3.7 Sonnet等。在“人类终极考试”中达到18.8%（无工具辅助）——这是由专家设计用于测试推理极限的数据集。在数学和科学方面表现卓越——在GPQA Diamond和AIME 2025（数学竞赛基准）中领先。100万标记的上下文窗口（即将推出200万）——能够处理大规模数据集、代码库和多模态输入。高级编码——在SWE - Bench验证中达到63.8%（智能编码评估），并且能够通过单个提示生成完整的应用程序。

来源： [https://blog.google/technology/google - deepmind/gemini - model - thinking - updates - march - 2025/#enhanced - reasoning](https://blog.google/technology/google - deepmind/gemini - model - thinking - updates - march - 2025/#enhanced - reasoning)

讨论总结

该讨论主要围绕Gemini 2.5 Pro Experimental展开，涉及多方面内容。包括应用推出时在不同平台（如IOS）出现的问题、其在各种基准测试中的表现、编码能力、是否开源、数据隐私、与其他模型（如Anthropic和Closed AI）的竞争关系等。讨论中既有对Gemini 2.5的期待、赞赏，也有质疑和不满。

主要观点

👍 Gemini 2.5在多个基准测试中表现优异
- 支持理由：在LMArena排名第一、在数学和科学方面领先、在“人类最后的考试”中有成绩等。
- 反对声音：有怀疑其数据真实性的，如怀疑有基准测试最大化或竞技场最大化的嫌疑。
🔥 Gemini 2.5不是开源模型，不能本地运行
- 正方观点：这是事实，且谷歌仍为社区做了很多贡献。
- 反方观点：开源社区很多人未意识到谷歌贡献，有人希望谷歌开源模型以便本地运行。
💡 不应该使用高中数学竞赛（AIME 2025）作为人工智能的基准
- 支持理由：训练数据可能包含竞赛内容，高中数学太基础难以体现逻辑推理能力。
- 反对声音：AIME有难度能体现数学能力。
👍 Gemini 2.5在编码方面有不错的表现
- 支持理由：在SWE - Bench Verified上取得63.8%的成绩，有用户称是不错的编码工具。
- 反对声音：有用户认为其在编码方面表现差，像之前的Gemini模型一样，可能是用垃圾数据训练的。
🔥 谷歌在推出Gemini 2.5时存在应用推出问题
- 正方观点：IOS高级用户看不到应用，推出不是即时全面的。
- 反方观点：可能是推出问题而非模型本身问题，如卸载再重新安装可解决看不到的问题。

金句与有趣评论

“😂 whileyouredownthere: FYI - Press release says 2.5 is available in the app for advanced users. I’m advanced and on IOS and not seeing it. Edit: uninstall and reinstall worked great”
- 亮点：反映出Gemini 2.5应用推出时存在的问题及一种可能的解决办法。
“🤔 LevianMcBirdo：Can we please stop using a highschool math competition as a benchmark?”
- 亮点：提出对人工智能基准测试的质疑，引发深入讨论。
“👀 Lock3tteDown: They don’t give a shit about their app. They’ve actually forgotten they even have one.”
- 亮点：表达对谷歌在应用方面不重视的强烈不满。
“😂 Enough - Meringue4745: Where’s the huggingface link to the weights?”
- 亮点：提出对Gemini 2.5 Pro Experimental权重链接的疑问。
“🤔 BABA_yaaGa: This is where Chinese AI leaves everything else biting the dust”
- 亮点：表明对中国AI发展的看法，与Gemini 2.5相关话题产生对比。

情感分析

总体情感倾向较为复杂，既有积极的期待、赞赏，也有消极的质疑、不满。主要分歧点在于Gemini 2.5的性能（如编码能力、基准测试成绩真实性）、商业方面（是否开源、免费）以及应用推出情况等。积极情感可能源于对新模型功能的期待，消极情感可能是因为实际体验未达预期、对谷歌策略的不满等。

趋势与预测

新兴话题：可能会有更多关于如何改进人工智能基准测试的讨论，以及对谷歌在Gemini系列后续发展中是否会解决当前存在问题（如应用推出、开源等）的关注。
潜在影响：如果Gemini 2.5性能真如宣传那样出色，可能会对其他人工智能模型产生竞争压力，促使它们改进；同时也可能影响相关行业对人工智能应用开发的方向，如编码能力提升等方面的探索。

详细内容：

《Google DeepMind 的 Gemini 2.5 引发 Reddit 热议》

近日，Google DeepMind 推出的 Gemini 2.5 Pro Experimental 成为了 Reddit 上的热门话题，吸引了众多网友的关注。该帖子获得了大量的点赞和评论，引发了关于这款模型的多方面讨论。

原帖主要介绍了 Gemini 2.5 在多个方面的突出表现，包括在 LMArena 上的显著优势、在“Humanity’s Last Exam”数据集中的成绩、在数学和科学领域的领先、巨大的 token 上下文窗口以及先进的编码能力等。同时，帖子还提供了相关的源链接https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#enhanced-reasoning 。

讨论的焦点主要集中在以下几个方面：

应用推出问题：有人表示在某些平台未看到更新，通过卸载重装解决；也有人认为谷歌在应用更新方面存在不足。
数据隐私和价格：有人认为谷歌的数据隐私政策可能不够好，也有人觉得其提供的模型 API 免费是优势，但也有人质疑价格和开放性。
作为基准的合理性：对于使用高中数学竞赛作为基准，大家看法不一，有人认为不太合适，有人则认为能体现数学技能。
模型的性能和优势：有人对其编码能力给予高度评价，有人则认为还存在不足。

有用户分享道：“我在 aistudio.google.com 上试用了 10 多分钟，至少在编码方面看起来真的非常令人印象深刻。”还有用户说：“App 推出比网页慢。”

在争议点上，关于模型的开放性、数据隐私、基准选择以及性能表现等方面，各方都有不同的看法和论据。例如，有人认为不能本地运行和缺乏开源是缺点，有人则强调其在某些方面的优势。

共识方面，大家都对 Google DeepMind 的这一新产品表现出了高度关注，并期待其能在未来有更好的发展和表现。

总的来说，Google DeepMind 的 Gemini 2.5 无疑在 AI 领域掀起了一阵波澜，但其未来的发展和实际应用效果还有待进一步观察和验证。

主要亮点：#

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#