原贴链接

Gemini 2.5 Pro实验版已经推出,并且在基准测试中占据主导地位!谷歌DeepMind刚刚推出了他们的“最智能的AI模型”。

主要亮点:

  • 在LMArena上排名第一且优势明显——在人类偏好测试中胜过GPT - 4.5、Claude 3.7 Sonnet等。
  • 在“人类终极考试”中达到18.8%(无工具辅助)——这是由专家设计用于测试推理极限的数据集。
  • 在数学和科学方面表现卓越——在GPQA Diamond和AIME 2025(数学竞赛基准)中领先。
  • 100万标记的上下文窗口(即将推出200万)——能够处理大规模数据集、代码库和多模态输入。
  • 高级编码——在SWE - Bench验证中达到63.8%(智能编码评估),并且能够通过单个提示生成完整的应用程序。主要亮点:在LMArena上排名第一且优势明显——在人类偏好测试中胜过GPT - 4.5、Claude 3.7 Sonnet等。在“人类终极考试”中达到18.8%(无工具辅助)——这是由专家设计用于测试推理极限的数据集。在数学和科学方面表现卓越——在GPQA Diamond和AIME 2025(数学竞赛基准)中领先。100万标记的上下文窗口(即将推出200万)——能够处理大规模数据集、代码库和多模态输入。高级编码——在SWE - Bench验证中达到63.8%(智能编码评估),并且能够通过单个提示生成完整的应用程序。

来源: [https://blog.google/technology/google - deepmind/gemini - model - thinking - updates - march - 2025/#enhanced - reasoning](https://blog.google/technology/google - deepmind/gemini - model - thinking - updates - march - 2025/#enhanced - reasoning)

讨论总结

该讨论主要围绕Gemini 2.5 Pro Experimental展开,涉及多方面内容。包括应用推出时在不同平台(如IOS)出现的问题、其在各种基准测试中的表现、编码能力、是否开源、数据隐私、与其他模型(如Anthropic和Closed AI)的竞争关系等。讨论中既有对Gemini 2.5的期待、赞赏,也有质疑和不满。

主要观点

  1. 👍 Gemini 2.5在多个基准测试中表现优异
    • 支持理由:在LMArena排名第一、在数学和科学方面领先、在“人类最后的考试”中有成绩等。
    • 反对声音:有怀疑其数据真实性的,如怀疑有基准测试最大化或竞技场最大化的嫌疑。
  2. 🔥 Gemini 2.5不是开源模型,不能本地运行
    • 正方观点:这是事实,且谷歌仍为社区做了很多贡献。
    • 反方观点:开源社区很多人未意识到谷歌贡献,有人希望谷歌开源模型以便本地运行。
  3. 💡 不应该使用高中数学竞赛(AIME 2025)作为人工智能的基准
    • 支持理由:训练数据可能包含竞赛内容,高中数学太基础难以体现逻辑推理能力。
    • 反对声音:AIME有难度能体现数学能力。
  4. 👍 Gemini 2.5在编码方面有不错的表现
    • 支持理由:在SWE - Bench Verified上取得63.8%的成绩,有用户称是不错的编码工具。
    • 反对声音:有用户认为其在编码方面表现差,像之前的Gemini模型一样,可能是用垃圾数据训练的。
  5. 🔥 谷歌在推出Gemini 2.5时存在应用推出问题
    • 正方观点:IOS高级用户看不到应用,推出不是即时全面的。
    • 反方观点:可能是推出问题而非模型本身问题,如卸载再重新安装可解决看不到的问题。

金句与有趣评论

  1. “😂 whileyouredownthere: FYI - Press release says 2.5 is available in the app for advanced users. I’m advanced and on IOS and not seeing it. Edit: uninstall and reinstall worked great”
    • 亮点:反映出Gemini 2.5应用推出时存在的问题及一种可能的解决办法。
  2. “🤔 LevianMcBirdo:Can we please stop using a highschool math competition as a benchmark?”
    • 亮点:提出对人工智能基准测试的质疑,引发深入讨论。
  3. “👀 Lock3tteDown: They don’t give a shit about their app. They’ve actually forgotten they even have one.”
    • 亮点:表达对谷歌在应用方面不重视的强烈不满。
  4. “😂 Enough - Meringue4745: Where’s the huggingface link to the weights?”
    • 亮点:提出对Gemini 2.5 Pro Experimental权重链接的疑问。
  5. “🤔 BABA_yaaGa: This is where Chinese AI leaves everything else biting the dust”
    • 亮点:表明对中国AI发展的看法,与Gemini 2.5相关话题产生对比。

情感分析

总体情感倾向较为复杂,既有积极的期待、赞赏,也有消极的质疑、不满。主要分歧点在于Gemini 2.5的性能(如编码能力、基准测试成绩真实性)、商业方面(是否开源、免费)以及应用推出情况等。积极情感可能源于对新模型功能的期待,消极情感可能是因为实际体验未达预期、对谷歌策略的不满等。

趋势与预测

  • 新兴话题:可能会有更多关于如何改进人工智能基准测试的讨论,以及对谷歌在Gemini系列后续发展中是否会解决当前存在问题(如应用推出、开源等)的关注。
  • 潜在影响:如果Gemini 2.5性能真如宣传那样出色,可能会对其他人工智能模型产生竞争压力,促使它们改进;同时也可能影响相关行业对人工智能应用开发的方向,如编码能力提升等方面的探索。

详细内容:

《Google DeepMind 的 Gemini 2.5 引发 Reddit 热议》

近日,Google DeepMind 推出的 Gemini 2.5 Pro Experimental 成为了 Reddit 上的热门话题,吸引了众多网友的关注。该帖子获得了大量的点赞和评论,引发了关于这款模型的多方面讨论。

原帖主要介绍了 Gemini 2.5 在多个方面的突出表现,包括在 LMArena 上的显著优势、在“Humanity’s Last Exam”数据集中的成绩、在数学和科学领域的领先、巨大的 token 上下文窗口以及先进的编码能力等。同时,帖子还提供了相关的源链接https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#enhanced-reasoning

讨论的焦点主要集中在以下几个方面:

  1. 应用推出问题:有人表示在某些平台未看到更新,通过卸载重装解决;也有人认为谷歌在应用更新方面存在不足。
  2. 数据隐私和价格:有人认为谷歌的数据隐私政策可能不够好,也有人觉得其提供的模型 API 免费是优势,但也有人质疑价格和开放性。
  3. 作为基准的合理性:对于使用高中数学竞赛作为基准,大家看法不一,有人认为不太合适,有人则认为能体现数学技能。
  4. 模型的性能和优势:有人对其编码能力给予高度评价,有人则认为还存在不足。

有用户分享道:“我在 aistudio.google.com 上试用了 10 多分钟,至少在编码方面看起来真的非常令人印象深刻。”还有用户说:“App 推出比网页慢。”

在争议点上,关于模型的开放性、数据隐私、基准选择以及性能表现等方面,各方都有不同的看法和论据。例如,有人认为不能本地运行和缺乏开源是缺点,有人则强调其在某些方面的优势。

共识方面,大家都对 Google DeepMind 的这一新产品表现出了高度关注,并期待其能在未来有更好的发展和表现。

总的来说,Google DeepMind 的 Gemini 2.5 无疑在 AI 领域掀起了一阵波澜,但其未来的发展和实际应用效果还有待进一步观察和验证。