原贴链接

文章链接:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

讨论总结

这个讨论是关于Google宣称Gemini 2.5超越其他思维模型的。一些人通过测试或自身经验对这一说法表示怀疑,如对其视频理解能力、编码能力、基准测试结果等方面的质疑,也有人认可它在某些方面的表现,像长文本处理能力和在编码方面优于Sonnet,整体氛围争议较大。

主要观点

  1. 👍 Gemini 2.5在处理长文本方面较之前版本有很大提升。
    • 支持理由:通过对上传的45章电子书进行提问,它能几秒内给出很好的答案,且答案显示它能理解故事情境。
    • 反对声音:无。
  2. 🔥 非Google的可信来源的声称没有意义,公司都会声称自己的模型最优。
    • 正方观点:公司有自夸自家模型的倾向,Google的声称需要外部可信来源佐证。
    • 反方观点:可以自己测试Gemini 2.5来判断优劣,测试结果显示它很出色。
  3. 💡 Gemini 2.5的64k输出是有趣之处。
    • 解释:这是Gemini 2.5的一个特性,被评论者指出是其有趣的地方。
  4. 💡 对Google关于Gemini 2.5的文章来源有偏向性表示怀疑。
    • 解释:Google关于Gemini 2.5宣称的来源看起来有偏向性,影响宣称的可信度。
  5. 💡 在编码基准方面,Gemini 2.5落后于Sonnet和o3。
    • 解释:针对Google宣称Gemini 2.5在所有思维模型中领先,有评论者以编码基准测试结果反驳。

金句与有趣评论

  1. “😂 我刚刚通过上传兔子在院子里跑的视频测试了它。所以我猜它的视频理解仍然基于快照,而不是对运动或上下文的真正理解。”
    • 亮点:通过实际测试给出对Gemini 2.5视频理解能力的质疑。
  2. “🤔 mustafar0111:Unless the claim is coming from someone credible other then Google it doesn’t mean anything. I expect every company to say their model beats everyone elses.”
    • 亮点:提出对Google声称的可信度判断标准。
  3. “👀 对于编码来说,它让Sonnet看起来像个笑话,Google这次是认真的。”
    • 亮点:在编码方面对Gemini 2.5给予高度认可并肯定Google成果。
  4. “😉 All gemini models so far have had a schizophrenia feel to them.”
    • 亮点:以一种形象的说法表达对Gemini模型的感受。
  5. “🤨 我要求所有其他模型生成数学八年级弧线问题的svg,几乎所有模型都不能正确生成弧线。Gemini首次测试就给了我结果,后续更多测试也比其他模型更好。所以我可以认为它(Gemini)是好的。”
    • 亮点:通过具体测试对比肯定Gemini 2.5。

情感分析

总体情感倾向是怀疑和争议性较大。主要分歧点在于Google宣称Gemini 2.5超越其他思维模型是否可信。可能的原因是Google缺乏外部可信来源的佐证、模型基准测试结果与实际使用可能不符、公司可能存在美化模型的情况以及不同用户在不同测试场景下得到不同结果等。

趋势与预测

  • 新兴话题:Gemini 2.5的API使用价格以及Gemini 2.5 Flash的情况可能引发后续讨论。
  • 潜在影响:如果Gemini 2.5真的如Google所宣称的那样优秀,可能会对AI模型竞争格局产生影响;如果其存在诸多问题,可能会促使Google改进或者影响用户对Google AI技术的信任度。

详细内容:

标题:关于 Google 新发布的 Gemini 2.5 模型的热门讨论

在 Reddit 上,一个关于“Google 的新 Gemini 2.5 模型声称超越其他思维模型,您对此有何看法?”的帖子引发了广泛关注。该帖子还附上了相关链接:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking ,吸引了众多网友参与讨论,评论数众多。

讨论的焦点主要集中在对 Gemini 2.5 模型性能的不同看法。有人通过上传兔子视频进行测试,发现模型将奔跑的兔子误认为是静止的,认为其视频理解能力基于快照而非对运动和情境的真正理解。也有人指出模型处理视频的方式是将每一帧分解为静态图像进行分析,对于网页用户界面的语言模型而言,考虑运动处理会增加计算开销且收益不大。但有人反驳称不能忽视视频中运动带来的意义。

还有用户分享了测试海狮视频的成功经历,认为模型准确描述了视频内容。然而,有人指出这并不意味着模型理解了运动。

有人认为除非有可靠来源证明,否则谷歌的声称没有意义。也有人提到模型在基准测试中的表现与实际使用情况可能不同,需要更多时间和更多用户的使用来评估。

一些用户亲自测试后认为模型表现出色,而有人则认为公司发布模型时的声明不可轻信,需要独立验证。

总的来说,对于 Google 的 Gemini 2.5 模型,大家的看法各异,存在争议和共识。争议在于模型在不同场景下的表现以及对其性能的评估,共识是需要更多实际使用和时间来确定其真正的价值。