原贴链接

🚀 推出ScreenSpot - Pro——首个将多模态大语言模型(LLMs)引入高分辨率专业图形用户界面(GUI)代理和计算机使用环境的基准!

📊 虽然图形用户界面(GUI)代理在网页浏览等一般任务中表现出色,但在专业应用方面仍未得到充分探索。

🔹 ScreenSpot - Pro涵盖5个行业和3种操作系统的23个应用程序,具有由专家注释的实际任务。

🔹 这些环境带来了独特的挑战——更高的分辨率、更小的目标和复杂的工作流程。

📉 目前的模型表现欠佳——#GPT4o仅达到0.8%,而最佳的基础多模态大语言模型(MLLM)仅达到18.9%。

🆒 缩小图像尺寸可提高结果(最高可达40.2%),但仍有很长的路要走。

💡 ScreenSpot - Pro揭示了关键差距,为在专业环境中推进图形用户界面(GUI)代理铺平了道路。是时候超越网页和移动领域,迈向下一代人工智能生产力工具了!

🏝️ 推特:https://x.com/ChiYeung_Law/status/1875179243401019825

🤗 博客:[https://huggingface.co/blog/Ziyang/screenspot - pro](https://huggingface.co/blog/Ziyang/screenspot - pro)

📈 项目与排行榜:[https://gui - agent.github.io/grounding - leaderboard/](https://gui - agent.github.io/grounding - leaderboard/)

📄 论文链接:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf

📘 数据:[https://huggingface.co/datasets/likaixin/ScreenSpot - Pro](https://huggingface.co/datasets/likaixin/ScreenSpot - Pro)

image

讨论总结

帖子主要介绍ScreenSpot - Pro在高分辨率专业GUI - Agent和计算机使用环境中的情况,目前相关模型在这方面的成果较低,而ScreenSpot - Pro揭示了关键差距。评论者有对项目表达认可和感谢的,有分享新消息的,有提出疑问的,也有表达不认可的,总体氛围比较积极且多元。

主要观点

  1. 👍 感谢ScreenSpot - Pro填补长期存在的盲点
    • 支持理由:它超越了以往仅回答知识层面问题的成果,有实际操作意义
    • 反对声音:无
  2. 🔥 认为Molmo在相关任务基准测试中大幅领先其他LLMs
    • 正方观点:根据经验预计Molmo比其他模型成绩好一个数量级
    • 反方观点:无
  3. 💡 不认可ScreenSpot - Pro不断截图整个UI的做法
    • 理由:多数视觉模型小分辨率训练,短期内不可行,大部分区域与LLM自动化无关
  4. 👍 认可ScreenSpot - Pro很令人惊喜
    • 支持理由:无(单纯表达认可)
    • 反对声音:无
  5. 👀 好奇ScreenSpot - Pro能否成为开发中的端到端测试工具
    • 理由:提出自动部署应用让模型执行任务的测试思路

金句与有趣评论

  1. “😂 Nice to see that OS - Atlas is at the top.”
    • 亮点:表达对OS - Atlas处于领先地位的欣喜
  2. “🤔 Honestly thank you for this. This has been a blind spot for a long time.”
    • 亮点:体现出ScreenSpot - Pro填补盲点的价值
  3. “👀 I wonder if this is going to be a good end - to - end testing tool for development.”
    • 亮点:对ScreenSpot - Pro在开发测试方面的好奇
  4. “💡 我不认为不断截图整个UI是可行的办法。”
    • 亮点:对ScreenSpot - Pro做法提出质疑
  5. “👍 This is actually really amazing ty for this!”
    • 亮点:对ScreenSpot - Pro表达惊喜和感谢

情感分析

总体情感倾向是积极的。主要分歧点在于对ScreenSpot - Pro不断截图整个UI做法的不认可。可能的原因是评论者从视觉模型训练分辨率和LLM自动化关联区域的角度出发,认为这种做法存在问题。

趋势与预测

  • 新兴话题:LLM在教育领域的应用场景探讨可能引发后续讨论。
  • 潜在影响:如果ScreenSpot - Pro能在开发测试等方面发挥作用,可能对相关领域的自动化操作和模型评估等产生积极影响。

详细内容:

《ScreenSpot-Pro:专业高分辨率计算机使用的GUI新突破》

近日,Reddit 上一则关于“ScreenSpot-Pro”的帖子引发了热烈讨论。该帖子介绍了 ScreenSpot-Pro 这一将多模态大型语言模型引入高分辨率专业 GUI 代理和计算机使用环境的创新成果。帖子获得了众多关注,引发了大量的讨论。

主要讨论方向包括对不同模型表现的评价、对新技术应用前景的期待,以及对其在实际操作中可能存在问题的思考。

在讨论中,有人称赞 OS-Atlas 处于领先地位,并从 Twitter 链接中得知 UGround V1 已发布。有人认为这一成果填补了长期以来的空白,对其重要性给予肯定。有人提出新手问题,好奇为何 Claude 计算机使用未在列表中。有人期待它能成为开发的良好端到端测试工具,自动部署应用并让模型执行一系列任务进行检查。还有人思考学生使用在线题库时,让语言模型读取问题、选择学生所说的答案并解读错误答案的合理性的可能性。有人对其成果表示惊叹。有人好奇它在发展中接近实现的程度。有人质疑不断截图整个用户界面是否是最佳方式,认为应聚焦重要区域并进行特定快照。

大家对于 ScreenSpot-Pro 的看法各有不同,但都围绕着其在专业领域的表现和未来发展展开,为这一新技术的探索和完善提供了丰富的视角。