原贴链接

视觉标记器(VisualTagger)为每个元素提供足够信息,让多模态大型语言模型(LLMs)知道如何与页面交互。(https://llminfo.image.fangd123.cn/images/fl659dxz5dxd1.png!/format/webp)。我很兴奋地介绍视觉标记器,这是一个JavaScript工具,是一个扩展工具的基础,旨在帮助多模态大型语言模型在网页上交互和自动化任务!这个工具突出显示HTML元素,在视觉标签中显示它们的标签、ID和类。能够分析图像的大型语言模型使用这些信息来确定如何访问每个元素(按钮、输入、链接等),并能生成JavaScript代码来有效地与它们交互。我们现在提供视觉标记器的Chrome扩展版本!这个扩展让只需点击一下就将视觉标记器注入网页变得更加容易。(https://preview.redd.it/ap9jtw4aqexd1.png?width = 1811&format = png&auto = webp&s = 07de9e24fee218fe51d211060cb77fa40e4720b0)。在Chrome中加载扩展:1. 克隆或下载存储库到本地机器。2. 在Chrome浏览器中访问chrome://extensions。3. 启用开发者模式(右上角切换按钮)。4. 点击“加载未打包”并选择包含扩展文件的文件夹。5. 视觉标记器图标将出现在扩展栏中,准备注入视觉标记。6. 现在,只需点击图标就可以在任何页面上切换视觉标记器。代码仍然是实验性的,可能会遗漏一些元素。欢迎贡献!(https://github.com/calmstate/VisualTagger)。你的小星星激励我继续前进!🌟

讨论总结

这个讨论围绕Visual Tagger工具展开。帖子介绍了Visual Tagger这一有助于多模态大型语言模型在网页交互和自动化任务的工具及其Chrome扩展版。评论内容多样,有人描述Google主页视觉设计与用户体验,也有人表达对Visual Tagger的兴趣,有使用者遇到问题,还有人对工具的工作原理提出疑问。

主要观点

  1. 👍 Visual Tagger是个不错的想法
    • 支持理由:从其功能和潜力来看,有认可其价值的。
    • 反对声音:无。
  2. 💡 对Visual Tagger的工作原理存在疑惑
    • 正方观点:工具的运行逻辑不明确,例如不使用常规文本LLM运行代码让人不解。
    • 反方观点:无。
  3. 🤔 认为原帖方法有趣且有尝试意愿
    • 支持理由:原帖提到的方法比较新颖。
    • 反对声音:无。
  4. 😕 在使用Visual Tagger时遇到问题
    • 支持理由:在步骤4遇到困难并提供操作系统和Chrome版本。
    • 反对声音:无。
  5. 👀 对工具关注度不高表示惊讶
    • 支持理由:认为工具很棒但关注不够。
    • 反对声音:无。

金句与有趣评论

  1. “😂 从视觉角度来看,整个页面采用了深色背景设计,给人一种简洁而现代的感觉。”
    • 亮点:形象地描述了Google主页的视觉设计特点。
  2. “🤔 Inevitable - Start - 653: Oh I’m interested in this! Thanks for posting, I’m always trying to find ways to improve my lucid autonomy extension!!”
    • 亮点:表达对Visual Tagger的兴趣以及自己提升扩展的需求。
  3. “👀 marketflex_za: This seems like a great idea.”
    • 亮点:简洁地表达对Visual Tagger的认可。
  4. “😕 I’m having issues on step 4.”
    • 亮点:明确指出在使用工具时遇到的问题所在。
  5. “🙄 Surprised you’re not getting more attention.”
    • 亮点:表达对工具关注度低的惊讶。

情感分析

总体情感倾向是积极的,大家对Visual Tagger大多持有兴趣和认可的态度。主要分歧点较少,目前主要是部分使用者在使用过程中遇到问题以及对工具工作原理的疑惑。可能的原因是这是一个较新的工具,大家在探索和了解的过程中会遇到这些情况。

趋势与预测

  • 新兴话题:关于Visual Tagger的工作原理会有更多深入探讨。
  • 潜在影响:如果Visual Tagger能不断完善,可能会对多模态LLM在网页交互和自动化任务方面产生积极推动作用,提升相关操作的效率。

详细内容:

《创新的 Visual Tagger 引发 Reddit 热议》

近日,Reddit 上一篇关于“Visual Tagger”的帖子引起了众多网友的关注。该帖子介绍了 Visual Tagger 这一 JavaScript 工具,它是一款旨在帮助多模态 LLMs 在网页上进行交互和自动化任务的扩展程序。此帖获得了较高的关注度,评论众多。

帖子主要内容为:Visual Tagger 能突出 HTML 元素,并以视觉标签显示其标签、ID 和类。具有图像分析能力的 LLMs 可利用此信息识别如何访问每个元素,并生成 JavaScript 代码与之有效交互。目前已推出 Chrome 扩展版本,还详细介绍了在 Chrome 中加载扩展的步骤。同时提到代码仍在实验阶段,欢迎贡献。

讨论焦点主要集中在以下几个方面: 有人对其表现出浓厚兴趣,比如有人说:“Oh I’m interested in this! Thanks for posting, I’m always trying to find ways to improve my lucid autonomy extension!!” 有人认为这是个很棒的主意,像“marketflex_za”表示:“This seems like a great idea.” 还有人觉得这是个不错的工具,如“Severin_Suveren”称:“Sounds like a great tool. Surprised you’re not getting more attention.”但“Severin_Suveren”也提出在第四步遇到了问题。 有人询问如何对当前页面截图并发送给相关模型,例如“SEND_ME_YOUR_POTATOS”表示:“Id like to try it out, but what I can’t figure out is how can I take a screenshot of the current page, to sent to Claude/OpenAI/local llm? Everywhere I read, it says that it’s not possible to take a screenshot of the current page since that’s a security risk” 也有人提出疑问,如“JustinPooDough”问道:“Why not just run the code through a regular text LLM? Is the idea to cross - reference the images with the code?”

讨论中的共识在于大家对这一创新工具的潜力普遍表示认可,但在实际使用和技术细节方面存在一些疑问和挑战。

总的来说,Visual Tagger 虽然引发了不少关注和兴趣,但要真正广泛应用和完善,还需要解决一些实际问题和技术难点。