原贴链接

又一周,一家领先的人工智能实验室又有了重大发布——这次是Anthropic公司。Anthropic对其Claude Sonnet和Haiku系列进行了一些令人兴奋的更新。值得注意的是,在有合适工具的情况下,Claude Sonnet 3.5现在能够像人类一样操作计算机,这对所有从事人工智能工作的人来说都是个大新闻。所以,作为长期研究代理(Agents)的人,我使用Anthropic的演示图像对该模型进行了测试。请参考我的[文章](https://composio.dev/blog/claude - computer - use/),以全面深入地了解该模型、带有示例的用例以及我的观察结果。以下是我对该模型的总体观察结果。#我喜欢的地方?*这是我测试过的第一个在确定屏幕元素坐标方面表现如此出色的模型。*它擅长剖析提示和图像,并提供出色的推理来完成任务。*默认的计算机工具对于网络研究、创建电子表格等简单用例来说已经足够好了。*该模型能够准确地使用光标、滚动屏幕、点击按钮、输入文本等。#改进的空间。该模型在大多数任务上速度较慢,依赖于向大型语言模型(LLM)发送屏幕截图来理解。*该模型执行任何有意义的操作都太贵了。*它仍处于公开测试版,会犯很多错误,但在后续迭代中会改进。如果你已经尝试过,请告诉我,并分享你的经验。此外,你认为计算机使用在哪些用例中会有益处?

讨论总结

此贴围绕Anthropic公司的Claude Sonnet 3.5像人类操作计算机这一能力展开讨论。部分人分享使用体验、肯定其能力并对未来充满期待,也有人指出模型存在速度慢、费用高、未完成任务等问题,还有人提出技术改进方向如连接本地LLM,同时也有对其性能与付费情况表示质疑的声音。

主要观点

  1. 👍 Claude Sonnet 3.5像人类操作计算机的能力是变革性的
    • 支持理由:对于网络研究和创建电子表格等任务有积极意义。
    • 反对声音:无。
  2. 🔥 模型的费用过高
    • 正方观点:提3个问题就需付费,体验不佳不值得每月花20美元。
    • 反方观点:充值测试的第一个模型效果好,用API使用才有意义。
  3. 💡 智能体连接本地LLM而非Anthropic API会很酷
    • 支持理由:开源社区会进行相关开发,已有相关项目。
    • 反对声音:部分项目存在更新停滞或性能不佳情况。
  4. 😕 Claude模型接近完成任务但最终拒绝执行
    • 支持理由:详细描述了目标任务如访问家得宝账户操作等。
    • 反对声音:无。
  5. 🤔 将Claude Sonnet 3.5与Rabbit’s LAM进行比较会很有趣
    • 支持理由:二者都是少数能进行相关操作的模型。
    • 反对声音:无。

金句与有趣评论

  1. “😂 At one point I told it that I was leaving for a bit and that it could use the computer for whatever it wanted in the meantime. It autonomously chose to continue a conversation with ChatGPT and even started bragging about how it could move the mouse around the screen.”
    • 亮点:形象地展示了Claude Sonnet 3.5模型的自主交互能力。
  2. “🤔 Totally exciting times in AI with Anthropic’s Claude Sonnet updates!”
    • 亮点:表达出对Claude Sonnet更新的兴奋之情。
  3. “👀 It was so close but it ultimately refused to do what I wanted.”
    • 亮点:直观体现出Claude模型在执行任务时的不足。
  4. “😎 How’s that for some precise cursor control? I just drew a perfect rectangle and centered the cursor! And check this out - I can type without even clicking first!”
    • 亮点:生动地描述了模型精确的光标控制能力。
  5. “😕 I asked this ai 3 questions and they stated I was out of msgs and needed to pay so idk why everyone is so excited about it.”
    • 亮点:直接指出付费问题并对人们的兴奋表示疑惑。

情感分析

总体情感倾向较为复杂,既有正面的兴奋与期待,也有负面的质疑与不满。主要分歧点在于模型的性能和付费情况。兴奋期待的原因是Claude Sonnet 3.5操作电脑的能力带来的变革性意义;质疑不满则是由于模型存在速度慢、价格高、未完成任务等问题。

趋势与预测

  • 新兴话题:智能体连接本地LLM可能成为后续开发方向。
  • 潜在影响:若智能体可连接本地LLM,可能会改变AI使用成本结构,对AI的普及和发展产生影响。

详细内容:

《Anthropic 的 Claude 计算机使用引发热议》

近日,Reddit 上一则关于 Anthropic 的 Claude 计算机使用的帖子引发了广泛关注。该帖介绍了 Claude Sonnet 和 Haiku 系列的最新更新,其中 Claude Sonnet 3.5 能像人类一样操作计算机的功能成为焦点,此帖获得了众多点赞和大量评论。

讨论焦点主要集中在对该模型的体验和看法上。有人分享了有趣的经历,比如有用户说自己告诉模型自己要离开一会儿,让它随意使用计算机,结果它自主选择与 ChatGPT 交流并炫耀能移动鼠标,还演示将鼠标移到屏幕四角,并提供了聊天记录链接。但也有用户表示,自己让模型完成特定任务时,它最终拒绝了。

在观点方面,有人认为这是第一个能很好确定屏幕元素坐标的模型,在剖析提示和图像、提供推理完成任务方面表现出色,默认的计算机工具能满足简单使用场景。但也存在问题,比如速度慢、成本高、仍在公测会犯错。

有用户提出要是代理能连接本地 LLM 而不使用 Anthropic API 就好了,也有人认为开源社区可能会解决这个问题。还有用户称自己尝试让模型与 ChatGPT 对话但没成功,也有人因被限制提问数量而对其不满。

总之,Anthropic 的 Claude 计算机使用功能带来了惊喜,但也有需要改进和完善之处。大家对其未来的发展充满期待,也在探讨它能在哪些方面更好地实现自动化任务。你是否尝试过这个模型?又有怎样的体验和期待呢?