原贴链接

I’m just a random person doing things for fun :3 the extension is called Lucid_Autonomy, it is an exploration into a framework that lets a LLM use the mouse and keyboard of a computer to interact with UI elements :

https://github.com/RandomInternetPreson/Lucid_Autonomy

Mistral wrote all the code, I have transcripts of the inference sessions on the repo for those that might find it interesting.

How it works: the user or AI can take screenshots, those screenshots are sent to owlv2 which identifies UI elements and provides coordinates for boxes that encompass each UI element. The boxes are cropped out and sent to MiniCPM-V-2_6 to be described. All these data are sent to the LLM which can then use the mouse and keyboard to perform actions in series.

The LLM can “Autonomously” act on its own if you provide it the coordinates (or it identifies the coordinates on its own) of the text-generation-webui text input field or UI elements. The LLM can both identify UI elements on its own and the user can provide direct coordinates.

With knowledge of the textgen UI elements the LLM can replace the user input with “inner thoughts” that help it progress through tasks.

The Inner thought scheme is not necessary, but through my limited testing it was more reliable. Sometimes the models don’t need to send themselves inner thoughts, they can just press “generate” and skip the user input. But I couldn’t tell how stable this would be in the long term for a wide variety of LLMs.

The LLM learns how to use the extension through a very long character card, if you use the included character card at least 60k of context is recommended.

However, you can explain to your model what tools you want it to use. Which requires much less context, but more work on the user’s part to tailor their instruction for their particular LLM. You and your model can explore the functionality together and you can teach it how to use the functions and think like a person using a computer.

You can probably delete huge portions of the context card too. It is likely not even close to as good as it could be.

I started out by teaching the LLM each new feature as a means of testing each new feature programmed into the extension, and LLMs can begin to do things on their own with some minimal amount of instruction from a person in context. The big character card is a catch-all for people who just want to try and test something without trying to invest too much time in teaching their model.

讨论总结

本次讨论主要围绕一个名为 Lucid_Autonomy 的实验性扩展,该扩展允许大型语言模型(LLM)使用鼠标和键盘与计算机界面元素进行交互。讨论内容涵盖了扩展的工作原理、技术实现细节、用户如何与模型互动以及安全性和未来发展的考虑。参与者对这一创新表示赞赏,并对扩展的稳定性和长期使用效果表示期待。此外,讨论中还涉及了模型自主行动的可能性、用户自定义指导以及与其他项目的合作潜力。

主要观点

  1. 👍 Lucid_Autonomy 是一个允许 LLM 使用鼠标和键盘的实验性扩展
    • 支持理由:通过截图识别 UI 元素并进行操作,LLM 可以自主执行操作或由用户提供直接坐标。
    • 反对声音:扩展的稳定性和长期使用效果尚待进一步测试。
  2. 🔥 该扩展利用了多个模型来识别和描述用户界面元素
    • 正方观点:使用 owl2 和 minicpm-v-2.6 模型与 LLM 结合,实现自主导航。
    • 反方观点:模型性能和数据来源的广泛性需要进一步验证。
  3. 💡 用户可以自定义指导 LLM 使用扩展
    • 用户可以通过特定的指令来指导模型,使其更有效地使用扩展。
  4. 👀 作者通过 GitHub 分享了项目的代码和推理会话的记录
    • 提供了详细的代码和推理会话记录,以便感兴趣的用户参考。
  5. 🚀 作者鼓励其他人参与项目,提出新想法或贡献代码
    • 作者对合作持开放态度,并提到了可能的合作项目。

金句与有趣评论

  1. “😂 danielhanchen:Very cool project!”
    • 亮点:对项目的创新性和实用性表示赞赏。
  2. “🤔 Inevitable-Start-653:I had an idea this morning, what if I had two models running and each model knew where the UI elements were to send messages to the other model?”
    • 亮点:提出了一个关于两个模型相互通信的创新想法。
  3. “👀 capivaraMaster:Just be careful to not let it delete your SSD or something.”
    • 亮点:提出了对模型可能进行的危险操作的担忧。

情感分析

讨论的总体情感倾向积极,大多数评论者对 Lucid_Autonomy 扩展的创新性和实用性表示赞赏。主要分歧点在于扩展的稳定性和长期使用效果,以及模型自主行动的安全性。这些担忧主要源于扩展的实验性质和潜在的技术风险。

趋势与预测

  • 新兴话题:两个模型相互通信的创新想法可能会引发后续讨论和实验。
  • 潜在影响:该扩展的成功实施可能会推动大型语言模型在用户界面交互方面的进一步发展,对相关领域或社会产生积极影响。

详细内容:

标题:Reddit 热议创新插件 Lucid_Autonomy 让 LLM 掌控鼠标和键盘

近日,Reddit 上一则关于创新插件 Lucid_Autonomy 的帖子引发了广泛关注。该帖子获得了众多点赞和丰富的评论。原帖介绍了这个由 Mistral 编写全部代码的插件,它能让语言模型(LLM)使用计算机的鼠标和键盘来与用户界面元素进行交互。

帖子中详细阐述了其工作原理,包括利用 owlv2 识别用户界面元素并提供坐标,通过 MiniCPM-V-2_6 描述元素,再将这些数据发送给 LLM 以执行操作。同时,还提到了 LLM 可自主行动,也能由用户提供坐标,以及通过长字符卡让 LLM 学习使用扩展功能等内容。

在评论区,主要观点和讨论精彩纷呈。有人称赞这是个很酷的项目,也有人表示感谢作者的努力。还有用户提出了一些实用的建议,比如增加一个“终止键”以防出现意外情况。有人好奇当放开 LLM 操作时最终会产生什么结果,作者回应称多数 LLM 会搜索太空旅行或最新的 AI 进展,还提到 LLM 能自己在记事本中做笔记,十分有趣。

有用户提到可以考虑使用类似 aider 这样的工具,作者表示会列入尝试清单。还有人探讨了技术模型的选择和替换,作者表示一直在测试不同模型,并且在努力提升扩展的能力。甚至有人提出让两个模型相互通信的想法。

对于这个创新的插件,大家既有对其功能的期待,也有对潜在风险的担忧。但不可否认的是,它为 LLM 与计算机的交互带来了全新的可能性,激发了大家丰富的想象和热烈的讨论。