原贴链接

仅给出论文链接https://arxiv.org/abs/2502.09696,无更多可翻译内容

讨论总结

这个讨论围绕ZeroBench视觉基准测试展开。首先提到前沿模型在该基准主要问题上得分0%,然后针对测试中的示例问题,许多人认为其质量堪忧,像存在语法错误、不清晰、措辞模糊等问题,还有人觉得难度过高。部分人认可这种测试成为主流的必要性,因为视觉是AI的薄弱环节,但也有不少人质疑测试构建的意义、测试是否能反映模型能力等,整体氛围充满争议。

主要观点

  1. 👍 所有前沿模型在该基准的主要问题上得分0%
    • 支持理由:论文评估20个LMMs在ZeroBench测试中得分为0.0%。
    • 反对声音:无。
  2. 🔥 对论文中基准测试示例问题的质量存疑
    • 正方观点:示例问题存在语法错误、不清晰等问题。
    • 反方观点:无明确反方观点,但有人从测试必要性角度侧面反驳。
  3. 💡 像ZeroBench这样的基准测试应成为主流
    • 支持理由:视觉是AI当前的薄弱环节,需要更难且长期有效的基准测试。
    • 反对声音:有人质疑与有用技能不相关的基准构建意义。
  4. 🤔 认为“不可能”的基准是模型识别问题不准确等能力的衡量
    • 解释:通过对示例问题分析,指出每个问题中存在不合理之处,从而得出此观点。
    • 反对声音:无。
  5. 😕 ZeroBench得出零结果是无意义的
    • 支持理由:无法反映模型增量进展和能力的细微差别。
    • 反对声音:无明确反方观点,但有观点认可测试的价值。

金句与有趣评论

  1. “😂 Every llm gets a zero because every question - answer combo is wrong.”
    • 亮点:简洁地表达了LLM得零分的原因,幽默地指出问答组合都是错的。
  2. “🤔 The sample questions are an embarrassment TBH. The clock question is both grammatically incorrect and unclear.”
    • 亮点:直接指出示例问题存在的问题,且态度较为鲜明。
  3. “👀 I’m pretty sure any of us could make an impossible visual benchmark.”
    • 亮点:对ZeroBench的存在意义提出质疑,认为创建类似基准并不难。
  4. “😕 A benchmark that consistently yields zeros from tested models is inherently uninformative.”
    • 亮点:从结果角度否定ZeroBench的意义,认为总是零结果不能提供有效信息。
  5. “💡 You can give an AI model an image of text, and it reads it a million times better than OCR.”
    • 亮点:通过对比说明AI识别图像文字能力很强。

情感分析

总体情感倾向存在分歧。部分人对ZeroBench持怀疑和否定态度,认为测试问题有问题、测试无意义等,主要原因是觉得它不能很好地反映模型能力、构建意义不大等;部分人则认可其存在的必要性,主要是从视觉是AI薄弱环节、需要更难的基准测试角度出发。

趋势与预测

  • 新兴话题:对AGI相关标准的讨论可能会继续深入,以及如何构建更合理的视觉基准测试。
  • 潜在影响:如果类似争议持续,可能会影响视觉基准测试的构建标准和发展方向,也可能促使对AI模型能力评估方式进行重新思考。

详细内容:

标题:关于“ZeroBench”:当代大型多模态模型的不可能视觉基准引发激烈讨论

近日,Reddit 上一篇关于“ZeroBench:An Impossible Visual Benchmark for Contemporary Large Multimodal Models”的帖子引起了广泛关注。该帖子包含了相关的链接(https://arxiv.org/abs/2502.09696),点赞数和评论数众多。帖子主要探讨了这个基准测试,其中所有前沿模型在这个基准上的得分均为 0%。

讨论的焦点集中在对这个基准测试的各种观点上。有人提出没有提到普通人在这个基准上的得分情况,认为很多问题普通人也难以应对。比如,有人表示样本问题存在语法错误、表述不清以及额外添加算术题只是为了难住模型等问题。有人认为每一个问题与答案的组合都是错误的,也有人分享了个人尝试解题的经历和过程。

有用户指出时钟问题存在歧义,对于一些问题的答案也存在争议。比如,对于时钟问题,有人认为答案是 448,而有人则对答案表示困惑。还有用户认为不应该有与图像无关的问题,如果是测试视觉理解,不应涉及模型对划船座位等知识的内化。

有人认为这是一个很好的基准测试,可以测试模型在一定程度上不依赖视觉信息进行推理的能力;但也有人认为这是一个设计糟糕的测试,只是为了追求 0%的得分而故意为之。

总的来说,关于“ZeroBench”这个基准测试的讨论充满了争议,大家对于其合理性、设计目的以及测试效果等方面各抒己见。