原贴链接

🚀 推出ScreenSpot - Pro——首个将多模态大语言模型（LLMs）引入高分辨率专业图形用户界面（GUI）代理和计算机使用环境的基准！

📊 虽然图形用户界面（GUI）代理在网页浏览等一般任务中表现出色，但在专业应用方面仍未得到充分探索。

🔹 ScreenSpot - Pro涵盖5个行业和3种操作系统的23个应用程序，具有由专家注释的实际任务。

🔹 这些环境带来了独特的挑战——更高的分辨率、更小的目标和复杂的工作流程。

📉 目前的模型表现欠佳——#GPT4o仅达到0.8%，而最佳的基础多模态大语言模型（MLLM）仅达到18.9%。

🆒 缩小图像尺寸可提高结果（最高可达40.2%），但仍有很长的路要走。

💡 ScreenSpot - Pro揭示了关键差距，为在专业环境中推进图形用户界面（GUI）代理铺平了道路。是时候超越网页和移动领域，迈向下一代人工智能生产力工具了！

🏝️ 推特：https://x.com/ChiYeung_Law/status/1875179243401019825

🤗 博客：[https://huggingface.co/blog/Ziyang/screenspot - pro](https://huggingface.co/blog/Ziyang/screenspot - pro)

📈 项目与排行榜：[https://gui - agent.github.io/grounding - leaderboard/](https://gui - agent.github.io/grounding - leaderboard/)

📄 论文链接：https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf

📘 数据：[https://huggingface.co/datasets/likaixin/ScreenSpot - Pro](https://huggingface.co/datasets/likaixin/ScreenSpot - Pro)

讨论总结

帖子主要介绍ScreenSpot - Pro在高分辨率专业GUI - Agent和计算机使用环境中的情况，目前相关模型在这方面的成果较低，而ScreenSpot - Pro揭示了关键差距。评论者有对项目表达认可和感谢的，有分享新消息的，有提出疑问的，也有表达不认可的，总体氛围比较积极且多元。

主要观点

👍 感谢ScreenSpot - Pro填补长期存在的盲点
- 支持理由：它超越了以往仅回答知识层面问题的成果，有实际操作意义
- 反对声音：无
🔥 认为Molmo在相关任务基准测试中大幅领先其他LLMs
- 正方观点：根据经验预计Molmo比其他模型成绩好一个数量级
- 反方观点：无
💡 不认可ScreenSpot - Pro不断截图整个UI的做法
- 理由：多数视觉模型小分辨率训练，短期内不可行，大部分区域与LLM自动化无关
👍 认可ScreenSpot - Pro很令人惊喜
- 支持理由：无（单纯表达认可）
- 反对声音：无
👀 好奇ScreenSpot - Pro能否成为开发中的端到端测试工具
- 理由：提出自动部署应用让模型执行任务的测试思路

金句与有趣评论

“😂 Nice to see that OS - Atlas is at the top.”
- 亮点：表达对OS - Atlas处于领先地位的欣喜
“🤔 Honestly thank you for this. This has been a blind spot for a long time.”
- 亮点：体现出ScreenSpot - Pro填补盲点的价值
“👀 I wonder if this is going to be a good end - to - end testing tool for development.”
- 亮点：对ScreenSpot - Pro在开发测试方面的好奇
“💡 我不认为不断截图整个UI是可行的办法。”
- 亮点：对ScreenSpot - Pro做法提出质疑
“👍 This is actually really amazing ty for this!”
- 亮点：对ScreenSpot - Pro表达惊喜和感谢

情感分析

总体情感倾向是积极的。主要分歧点在于对ScreenSpot - Pro不断截图整个UI做法的不认可。可能的原因是评论者从视觉模型训练分辨率和LLM自动化关联区域的角度出发，认为这种做法存在问题。

趋势与预测

新兴话题：LLM在教育领域的应用场景探讨可能引发后续讨论。
潜在影响：如果ScreenSpot - Pro能在开发测试等方面发挥作用，可能对相关领域的自动化操作和模型评估等产生积极影响。

详细内容：

《ScreenSpot-Pro：专业高分辨率计算机使用的GUI新突破》

近日，Reddit 上一则关于“ScreenSpot-Pro”的帖子引发了热烈讨论。该帖子介绍了 ScreenSpot-Pro 这一将多模态大型语言模型引入高分辨率专业 GUI 代理和计算机使用环境的创新成果。帖子获得了众多关注，引发了大量的讨论。

主要讨论方向包括对不同模型表现的评价、对新技术应用前景的期待，以及对其在实际操作中可能存在问题的思考。

在讨论中，有人称赞 OS-Atlas 处于领先地位，并从 Twitter 链接中得知 UGround V1 已发布。有人认为这一成果填补了长期以来的空白，对其重要性给予肯定。有人提出新手问题，好奇为何 Claude 计算机使用未在列表中。有人期待它能成为开发的良好端到端测试工具，自动部署应用并让模型执行一系列任务进行检查。还有人思考学生使用在线题库时，让语言模型读取问题、选择学生所说的答案并解读错误答案的合理性的可能性。有人对其成果表示惊叹。有人好奇它在发展中接近实现的程度。有人质疑不断截图整个用户界面是否是最佳方式，认为应聚焦重要区域并进行特定快照。

大家对于 ScreenSpot-Pro 的看法各有不同，但都围绕着其在专业领域的表现和未来发展展开，为这一新技术的探索和完善提供了丰富的视角。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#