仅给出论文链接https://arxiv.org/abs/2502.09696，无更多可翻译内容

讨论总结

这个讨论围绕ZeroBench视觉基准测试展开。首先提到前沿模型在该基准主要问题上得分0%，然后针对测试中的示例问题，许多人认为其质量堪忧，像存在语法错误、不清晰、措辞模糊等问题，还有人觉得难度过高。部分人认可这种测试成为主流的必要性，因为视觉是AI的薄弱环节，但也有不少人质疑测试构建的意义、测试是否能反映模型能力等，整体氛围充满争议。

主要观点

👍 所有前沿模型在该基准的主要问题上得分0%
- 支持理由：论文评估20个LMMs在ZeroBench测试中得分为0.0%。
- 反对声音：无。
🔥 对论文中基准测试示例问题的质量存疑
- 正方观点：示例问题存在语法错误、不清晰等问题。
- 反方观点：无明确反方观点，但有人从测试必要性角度侧面反驳。
💡 像ZeroBench这样的基准测试应成为主流
- 支持理由：视觉是AI当前的薄弱环节，需要更难且长期有效的基准测试。
- 反对声音：有人质疑与有用技能不相关的基准构建意义。
🤔 认为“不可能”的基准是模型识别问题不准确等能力的衡量
- 解释：通过对示例问题分析，指出每个问题中存在不合理之处，从而得出此观点。
- 反对声音：无。
😕 ZeroBench得出零结果是无意义的
- 支持理由：无法反映模型增量进展和能力的细微差别。
- 反对声音：无明确反方观点，但有观点认可测试的价值。

金句与有趣评论

“😂 Every llm gets a zero because every question - answer combo is wrong.”
- 亮点：简洁地表达了LLM得零分的原因，幽默地指出问答组合都是错的。
“🤔 The sample questions are an embarrassment TBH. The clock question is both grammatically incorrect and unclear.”
- 亮点：直接指出示例问题存在的问题，且态度较为鲜明。
“👀 I’m pretty sure any of us could make an impossible visual benchmark.”
- 亮点：对ZeroBench的存在意义提出质疑，认为创建类似基准并不难。
“😕 A benchmark that consistently yields zeros from tested models is inherently uninformative.”
- 亮点：从结果角度否定ZeroBench的意义，认为总是零结果不能提供有效信息。
“💡 You can give an AI model an image of text, and it reads it a million times better than OCR.”
- 亮点：通过对比说明AI识别图像文字能力很强。

情感分析

总体情感倾向存在分歧。部分人对ZeroBench持怀疑和否定态度，认为测试问题有问题、测试无意义等，主要原因是觉得它不能很好地反映模型能力、构建意义不大等；部分人则认可其存在的必要性，主要是从视觉是AI薄弱环节、需要更难的基准测试角度出发。

趋势与预测

新兴话题：对AGI相关标准的讨论可能会继续深入，以及如何构建更合理的视觉基准测试。
潜在影响：如果类似争议持续，可能会影响视觉基准测试的构建标准和发展方向，也可能促使对AI模型能力评估方式进行重新思考。

详细内容：

标题：关于“ZeroBench”：当代大型多模态模型的不可能视觉基准引发激烈讨论

近日，Reddit 上一篇关于“ZeroBench：An Impossible Visual Benchmark for Contemporary Large Multimodal Models”的帖子引起了广泛关注。该帖子包含了相关的链接（https://arxiv.org/abs/2502.09696），点赞数和评论数众多。帖子主要探讨了这个基准测试，其中所有前沿模型在这个基准上的得分均为 0%。

讨论的焦点集中在对这个基准测试的各种观点上。有人提出没有提到普通人在这个基准上的得分情况，认为很多问题普通人也难以应对。比如，有人表示样本问题存在语法错误、表述不清以及额外添加算术题只是为了难住模型等问题。有人认为每一个问题与答案的组合都是错误的，也有人分享了个人尝试解题的经历和过程。

有用户指出时钟问题存在歧义，对于一些问题的答案也存在争议。比如，对于时钟问题，有人认为答案是 448，而有人则对答案表示困惑。还有用户认为不应该有与图像无关的问题，如果是测试视觉理解，不应涉及模型对划船座位等知识的内化。

有人认为这是一个很好的基准测试，可以测试模型在一定程度上不依赖视觉信息进行推理的能力；但也有人认为这是一个设计糟糕的测试，只是为了追求 0%的得分而故意为之。

总的来说，关于“ZeroBench”这个基准测试的讨论充满了争议，大家对于其合理性、设计目的以及测试效果等方面各抒己见。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#