分享

会自己用电脑的AI来了?Agent一夜变天

 小张学AI 2024-10-24 发布于山东

大家好,我是 同学小张,+v: jasper_8017 一起交流,持续学习AI大模型应用实战案例,持续分享,欢迎大家点赞+关注,订阅我的大模型专栏,共同学习和进步。


AI还是发展太快了,最近还在苦哈哈地学习自动操作Android手机的Agent开发,没想到刚上线的Claude已经具备了像人类一样操控电脑的能力?自行查看屏幕、移动鼠标、点击、输入文字,甚至可以调试代码、自动收集信息并填表。AI推理已经接近极限,未来的关键突破将是AI直接操作手机和电脑!

并且长远看,类似前几天我们说的,腾讯推出的AppAgent来实现手机控制的能力,在不久的将来,也将被取代,不需要复杂的Agent工作流,大模型本身就会自带这种能力!

https://github.com/mnotgod96/AppAgent

1. 背景

Anthropic AI最近发布了Claude 3.5 Haiku,全新升级版Claude 3.5 Sonnet也来了。在这次发布中,最令人兴奋的一点是Claude可以像人类一样使用计算机了!这是首个在公测中提供此功能的模型!从今天起,开发者可以通过API,指导Claude像人类一样使用计算机。


Anthropic主管表示,「计算机使用」是全新人机交互范式的第一步,同时也是AI模型应该具备的全新基础能力。在过去几年里,强大的AI开发已经达到了许多里程碑,比如执行复杂逻辑推理,以及识别和理解图像。而下一个突破点,就是AI操作电脑了!模型不必通过专门定制的工具和工作流Agent进行交互,而是按指示就能使用所有软件。看来,Agent和工作流要变天了……

当然,这项功能仍处于实验阶段,使用起来还有很大不足,可能出错。而Anthropic选择提前发布此功能,也是为了获得开发者反馈,将之快速改进。

2. 操作电脑示例

官方给出的Demo中,Anthropic研究员给Claude提出任务:

我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?

Claude自行打开了Google,开始了搜索。

然后,Claude自己打开地图并查看了距离。

最后,在自行了解了所需信息之后,它又自己打开了日历,安排好了日程。

另一个示例中,展示了Claude 能帮我们查找散落在电脑各个角落的表格数据:假设我们需要填写一份来自「蚂蚁设备公司」的供应商请求表,但需要填写的数据散落在电脑的各个角落,Claude首先开始截取小哥的屏幕截图,并且很快发现蚂蚁设备公司并不在表格中。

然后他自行切换到CRM系统中,去搜索这个公司。找到后,自行滚动页面,查找填表所需的所有信息,然后提交表格。

很惊艳的效果。现在,这个功能已经在Claude API中可用了。

3. 仍需努力,但未来可期

当然,这项能力还在测试阶段,它在仅基于屏幕截图的任务类别中得分为14.9%,当允许更多操作步骤来完成任务时,Claude得分提高到了22.0%,但仍然远低于人类72.36%的表现。毕竟,人类毫不费力完成的一些操作(滚动、拖动、缩放),对于Claude来说极具挑战。

4. 简单原理

Claude之所以能实现这样的能力,有以下几方面:

(1)Anthropic在工具使用和多模态方面的工作和研究,为AI识别和解释图像奠定了基础。

(2)在此基础上,研究者训练Claude准确计算像素,因为它必须计算出需要垂直或水平移动鼠标指针多少像素,才能点击正确的位置。

(3)Claude首先学习计算器、文本编辑器这类简单软件的使用,然后迅速将学习到的经验迁移到了其他应用。这种训练让它能将用户指令转化为一系列逻辑步骤,执行操作。遇到障碍时,甚至还能自我纠正、重试任务。

5. 展望未来

AI操作电脑能力代表了一种全新的人工智能开发方法。迄今为止,LLM开发者一直在努力使工具适应模型,创造特殊的环境,让AI使用专门设计的工具来完成各种任务。现在,Anthropic「反其道而行之」——他们选择让模型去适应工具。也就是,Claude能像人类一样,融入我们日常使用的计算机环境,直接使用现有的软件。

虽然Claude已经达到了当前的最高水平,但它的操作仍然相对缓慢且容易出错。我们日常使用电脑时的许多操作,如拖拽、缩放等,Claude都还无法做到。

此外,Claude目前观察屏幕的方式是通过连续截图并拼接在一起,而不是观察连续的视频流,这意味着它可能会错过一些短暂的动作或通知。

总之,Claude如今的表现让人对未来充满期待。

在这之前,Agent工作流方式操控手机和电脑还是较好的实现手段。我正在 学习和拆解 AI + Android手机 的工作原理和实现过程,帮助大家从零开始入门这一方向,拓展下AI应用场景的视野。

目前,已经出了部分教程:

  • · 【AI+手机】如何利用GPT实现Android软件自动化交互?全面解读MetaGPT Android助手实现原理(1)

  • · 【AI+手机】如何利用GPT实现Android软件自动化交互?全面解读MetaGPT Android助手实现原理(2)

  • · 【AI+手机】如何利用GPT实现Android软件自动化交互?全面解读MetaGPT Android助手实现原理(3)

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多