AI还是发展太快了,最近还在苦哈哈地学习自动操作Android手机的Agent开发,没想到刚上线的Claude已经具备了像人类一样操控电脑的能力?自行查看屏幕、移动鼠标、点击、输入文字,甚至可以调试代码、自动收集信息并填表。AI推理已经接近极限,未来的关键突破将是AI直接操作手机和电脑! 并且长远看,类似前几天我们说的,腾讯推出的AppAgent来实现手机控制的能力,在不久的将来,也将被取代,不需要复杂的Agent工作流,大模型本身就会自带这种能力!
![]() 1. 背景Anthropic AI最近发布了Claude 3.5 Haiku,全新升级版Claude 3.5 Sonnet也来了。在这次发布中,最令人兴奋的一点是Claude可以像人类一样使用计算机了!这是首个在公测中提供此功能的模型!从今天起,开发者可以通过API,指导Claude像人类一样使用计算机。 ![]() Anthropic主管表示,「计算机使用」是全新人机交互范式的第一步,同时也是AI模型应该具备的全新基础能力。在过去几年里,强大的AI开发已经达到了许多里程碑,比如执行复杂逻辑推理,以及识别和理解图像。而下一个突破点,就是AI操作电脑了!模型不必通过专门定制的工具和工作流Agent进行交互,而是按指示就能使用所有软件。看来,Agent和工作流要变天了…… ![]() 当然,这项功能仍处于实验阶段,使用起来还有很大不足,可能出错。而Anthropic选择提前发布此功能,也是为了获得开发者反馈,将之快速改进。 2. 操作电脑示例官方给出的Demo中,Anthropic研究员给Claude提出任务:
Claude自行打开了Google,开始了搜索。 ![]() 然后,Claude自己打开地图并查看了距离。 ![]() 最后,在自行了解了所需信息之后,它又自己打开了日历,安排好了日程。 另一个示例中,展示了Claude 能帮我们查找散落在电脑各个角落的表格数据:假设我们需要填写一份来自「蚂蚁设备公司」的供应商请求表,但需要填写的数据散落在电脑的各个角落,Claude首先开始截取小哥的屏幕截图,并且很快发现蚂蚁设备公司并不在表格中。 ![]() 然后他自行切换到CRM系统中,去搜索这个公司。找到后,自行滚动页面,查找填表所需的所有信息,然后提交表格。 ![]() 很惊艳的效果。现在,这个功能已经在Claude API中可用了。 ![]() 3. 仍需努力,但未来可期当然,这项能力还在测试阶段,它在仅基于屏幕截图的任务类别中得分为14.9%,当允许更多操作步骤来完成任务时,Claude得分提高到了22.0%,但仍然远低于人类72.36%的表现。毕竟,人类毫不费力完成的一些操作(滚动、拖动、缩放),对于Claude来说极具挑战。 ![]() 4. 简单原理Claude之所以能实现这样的能力,有以下几方面: (1)Anthropic在工具使用和多模态方面的工作和研究,为AI识别和解释图像奠定了基础。 (2)在此基础上,研究者训练Claude准确计算像素,因为它必须计算出需要垂直或水平移动鼠标指针多少像素,才能点击正确的位置。 (3)Claude首先学习计算器、文本编辑器这类简单软件的使用,然后迅速将学习到的经验迁移到了其他应用。这种训练让它能将用户指令转化为一系列逻辑步骤,执行操作。遇到障碍时,甚至还能自我纠正、重试任务。 5. 展望未来AI操作电脑能力代表了一种全新的人工智能开发方法。迄今为止,LLM开发者一直在努力使工具适应模型,创造特殊的环境,让AI使用专门设计的工具来完成各种任务。现在,Anthropic「反其道而行之」——他们选择让模型去适应工具。也就是,Claude能像人类一样,融入我们日常使用的计算机环境,直接使用现有的软件。 虽然Claude已经达到了当前的最高水平,但它的操作仍然相对缓慢且容易出错。我们日常使用电脑时的许多操作,如拖拽、缩放等,Claude都还无法做到。 此外,Claude目前观察屏幕的方式是通过连续截图并拼接在一起,而不是观察连续的视频流,这意味着它可能会错过一些短暂的动作或通知。 总之,Claude如今的表现让人对未来充满期待。 在这之前,Agent工作流方式操控手机和电脑还是较好的实现手段。我正在 学习和拆解 AI + Android手机 的工作原理和实现过程,帮助大家从零开始入门这一方向,拓展下AI应用场景的视野。 目前,已经出了部分教程:
|
|