原贴链接

https://llminfo.image.fangd123.cn/videos/1gbhgcx.mp4

讨论总结

该讨论围绕在“计算机使用”类型应用中的本地视觉模型展开。评论者们纷纷给出自己推荐的模型,如微软OmniParser、phi vision 3.5等,还有人分享自己正在进行的对视觉模型操控鼠标等能力的测试,以及在操作模型过程中的技术栈内容、相关代码分享等,也有关于项目合作和对当前计算机应用开发方式的不同看法。整体氛围较为平和,大家各抒己见提供信息。

主要观点

  1. 👍 微软的OmniParser可能对相关应用有帮助
    • 支持理由:由评论者Glat0s推荐,给出了具体网址并认为可能有用。
    • 反对声音:无
  2. 🔥 推荐phi vision 3.5且其在计算机应用类型中的本地视觉模型方面表现出色
    • 正方观点:Opteron67明确推荐并给予正面评价。
    • 反方观点:无
  3. 💡 正在测试视觉模型操控鼠标及打开文件夹的能力,目标是找到在1080p桌面分辨率大图像中产生准确坐标的模型
    • 这是评论者l33t - Mt分享的自己正在进行的工作内容。
  4. 💡 11b在坐标方面准确性不足,打算尝试Phi(当它在ollama上时)
    • 评论者分享自己在寻找合适模型过程中的尝试结果与后续计划。
  5. 💡 需要使用多个模型才能得到好结果
    • 评论者根据自己的经验得出这一结论并分享了自己的开源版本相关内容。

金句与有趣评论

  1. “😂 Glat0s:Microsoft recently released OmniParser [https://microsoft.github.io/OmniParser/] Maybe that’s helpful”
    • 亮点:明确推荐微软新发布的模型,并给出网址。
  2. “🤔 Inevitable - Start - 653:Interesting 🤔 im gonna need to give this a try and integrate it into my open source version of computer mode.”
    • 亮点:对推荐的模型表示感兴趣并打算尝试集成到自己的项目中。
  3. “👀 Opteron67: phi vision 3.5 amazing!”
    • 亮点:简洁地表达对phi vision 3.5的认可。
  4. “💡 l33t - Mt:Testing different vision models ability to navigate my mouse around and attempt to open a folder.”
    • 亮点:阐述自己正在进行的针对视觉模型特定能力的测试。
  5. “🧐 l33t - Mt:Hunting for the best model that can produce fairly accurate coordinates within larger images (Desktop res 1080p).”
    • 亮点:明确提出寻找模型的目标条件。

情感分析

总体情感倾向较为积极,大家都在积极分享自己的经验、推荐或者正在进行的工作。主要分歧点较少,基本上都是各自分享内容,可能是因为话题较为专业和具体,大家专注于提供信息,而没有产生太多争论。

趋势与预测

  • 新兴话题:在计算机应用中如何结合不同的模型(如推荐多个模型组合使用)可能会引发后续讨论。
  • 潜在影响:对计算机视觉技术在计算机应用中的发展有积极推动作用,可能会影响到相关软件或系统开发中本地视觉模型的选择和应用方式。

详细内容:

标题:探索适用于“计算机使用”应用的最佳本地视觉模型

在 Reddit 上,一个关于“Best local vision models for use in ‘computer use’ type application?”的帖子引发了热烈讨论。该帖获得了众多关注,众多用户纷纷发表见解。

讨论的焦点主要集中在各种视觉模型的推荐和使用体验上。有人提到微软最近发布的 OmniParser 可能会有所帮助[https://microsoft.github.io/OmniParser/] 。有人认为 phi vision 3.5 十分出色。还有用户在测试不同视觉模型操控鼠标并尝试打开文件夹的能力,以寻找能在较大图像(如 1080p 桌面分辨率)中产生相当准确坐标的最佳模型。

有用户分享道:“我发现降低截图分辨率有助于在一定程度上提高推理速度,直到准确性下降。我只用这种方法尝试了 molmo 模型。这对您可能有帮助。” 还有用户表示:“我试过 11b,但在坐标方面不太准确。等 Phi 在 ollama 上时我再试试。”

关于如何将桌面视图提供给模型以及如何让其模拟键盘/鼠标操作,有人使用 Python 捕获屏幕截图,将其转换为 base64,连同格式化指令的提示一起发送给模型,然后解析模型的响应以获取坐标,并使用 pyautogui 将鼠标移动到相应位置。

也有人提出这可能需要通过强化学习对模型进行微调。还有用户建议可以选择 tesseract/paddle 进行 OCR,结合一些 CV2 轮廓检测进行形状检测和分类。

用户们对于最佳本地视觉模型各抒己见,有人认为需要使用多个模型才能获得良好的结果,有人分享了自己的开源版本。这场讨论展示了大家在探索适用于“计算机使用”应用的最佳本地视觉模型道路上的积极尝试和深入思考。

然而,对于到底哪个模型才是真正的最佳选择,目前尚未达成明确的共识,仍需更多的实践和研究来确定。