【原】会自己用电脑的AI来了？Agent一夜变天

小张学AI 2024-10-24 发布于山东

展开全文

大家好，我是同学小张，+v: jasper_8017 一起交流，持续学习AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，订阅我的大模型专栏，共同学习和进步。

AI还是发展太快了，最近还在苦哈哈地学习自动操作Android手机的Agent开发，没想到刚上线的Claude已经具备了像人类一样操控电脑的能力？自行查看屏幕、移动鼠标、点击、输入文字，甚至可以调试代码、自动收集信息并填表。AI推理已经接近极限，未来的关键突破将是AI直接操作手机和电脑！

并且长远看，类似前几天我们说的，腾讯推出的AppAgent来实现手机控制的能力，在不久的将来，也将被取代，不需要复杂的Agent工作流，大模型本身就会自带这种能力！

https://github.com/mnotgod96/AppAgent

1. 背景

Anthropic AI最近发布了Claude 3.5 Haiku，全新升级版Claude 3.5 Sonnet也来了。在这次发布中，最令人兴奋的一点是Claude可以像人类一样使用计算机了！这是首个在公测中提供此功能的模型！从今天起，开发者可以通过API，指导Claude像人类一样使用计算机。

Anthropic主管表示，「计算机使用」是全新人机交互范式的第一步，同时也是AI模型应该具备的全新基础能力。在过去几年里，强大的AI开发已经达到了许多里程碑，比如执行复杂逻辑推理，以及识别和理解图像。而下一个突破点，就是AI操作电脑了！模型不必通过专门定制的工具和工作流Agent进行交互，而是按指示就能使用所有软件。看来，Agent和工作流要变天了……

当然，这项功能仍处于实验阶段，使用起来还有很大不足，可能出错。而Anthropic选择提前发布此功能，也是为了获得开发者反馈，将之快速改进。

2. 操作电脑示例

官方给出的Demo中，Anthropic研究员给Claude提出任务：

我的朋友要来旧金山，我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点，查看一下开车时间和日出时间，然后安排一个日历活动，让我们有足够的时间到达那里吗？

Claude自行打开了Google，开始了搜索。

然后，Claude自己打开地图并查看了距离。

最后，在自行了解了所需信息之后，它又自己打开了日历，安排好了日程。

另一个示例中，展示了Claude 能帮我们查找散落在电脑各个角落的表格数据：假设我们需要填写一份来自「蚂蚁设备公司」的供应商请求表，但需要填写的数据散落在电脑的各个角落，Claude首先开始截取小哥的屏幕截图，并且很快发现蚂蚁设备公司并不在表格中。

然后他自行切换到CRM系统中，去搜索这个公司。找到后，自行滚动页面，查找填表所需的所有信息，然后提交表格。

很惊艳的效果。现在，这个功能已经在Claude API中可用了。

3. 仍需努力，但未来可期

当然，这项能力还在测试阶段，它在仅基于屏幕截图的任务类别中得分为14.9%，当允许更多操作步骤来完成任务时，Claude得分提高到了22.0%，但仍然远低于人类72.36%的表现。毕竟，人类毫不费力完成的一些操作（滚动、拖动、缩放），对于Claude来说极具挑战。

4. 简单原理

Claude之所以能实现这样的能力，有以下几方面：

（1）Anthropic在工具使用和多模态方面的工作和研究，为AI识别和解释图像奠定了基础。

（2）在此基础上，研究者训练Claude准确计算像素，因为它必须计算出需要垂直或水平移动鼠标指针多少像素，才能点击正确的位置。

（3）Claude首先学习计算器、文本编辑器这类简单软件的使用，然后迅速将学习到的经验迁移到了其他应用。这种训练让它能将用户指令转化为一系列逻辑步骤，执行操作。遇到障碍时，甚至还能自我纠正、重试任务。

5. 展望未来

AI操作电脑能力代表了一种全新的人工智能开发方法。迄今为止，LLM开发者一直在努力使工具适应模型，创造特殊的环境，让AI使用专门设计的工具来完成各种任务。现在，Anthropic「反其道而行之」——他们选择让模型去适应工具。也就是，Claude能像人类一样，融入我们日常使用的计算机环境，直接使用现有的软件。

虽然Claude已经达到了当前的最高水平，但它的操作仍然相对缓慢且容易出错。我们日常使用电脑时的许多操作，如拖拽、缩放等，Claude都还无法做到。

此外，Claude目前观察屏幕的方式是通过连续截图并拼接在一起，而不是观察连续的视频流，这意味着它可能会错过一些短暂的动作或通知。

总之，Claude如今的表现让人对未来充满期待。

在这之前，Agent工作流方式操控手机和电脑还是较好的实现手段。我正在 学习和拆解 AI + Android手机的工作原理和实现过程，帮助大家从零开始入门这一方向，拓展下AI应用场景的视野。

目前，已经出了部分教程：