当地时间10月22号,知名AI初创公司Anthropic发布了Claude 3.5模型家族的更新:新模型Claude 3.5 Haiku发布,同时现有模型Claude 3.5 Sonnet获得了升级。
尽管我们现在几乎每天都能看到AI技术的更新,但这一新突破足以刷新人们的认知,也标志着AI技术在实际应用领域迈出了关键性的一步。
这项功能名为Computer Use(计算机使用),目前处于Beta公测阶段,仅支持开发者通过API配置和调用。网页端的Claude版本虽然已经更新到了Claude 3.5 Sonnet (New),但并没有这项功能。
具体来说,Claude能够通过观看屏幕截图,实现移动光标、点击按钮、使用虚拟键盘输入文本等操作,真正模拟人类与计算机交互的方式。
图 | Claude演示视频,它正在操作电脑,debug一段代码(来源:Anthropic)
“这对于 AI 模型来说是一项全新的能力。”Anthropic开发者关系负责人亚历克斯·艾伯特(Alex Albert)在X平台上写道,“我们不是为单个任务开发定制工具,而是向 Claude 传授基本的计算机技能,让它能够自然地使用人们日常使用的相同软件和工具。”
这意味着AI助手终于可以突破传统框架的束缚,直接使用为人类设计的各类软件,而不再局限于专门定制的工具。这将为AI在现实世界中的应用开辟全新的可能。
在demo演示中,亚历克斯展示了如何让Claude使用Computer Use功能打开Claude网页,然后使用Artifact功能编写代码:
Claude 还能找到并打开电脑上的其他软件,比如VSCode:
在多个演示视频中,我们可以看到,Claude能够丝滑地操作电脑执行打开软件、网页搜索、文本输入、编写代码、下载文件、debug、查找网页表格并填入信息等任务,甚至还能打开外卖平台订餐。
图 | Claude 点的外卖(来源:亚历克斯)
据介绍,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等多家公司已经在探索Claude的新功能,执行原本需要数十步甚至数百步才能完成的任务。
在研究人员的测试过程中,Claude也出现过一些令人忍俊不禁的失误。比如,它曾意外地终止了一次长时间的屏幕录制,导致所有录像丢失;另一次在进行代码演示时,它突然对黄石国家公园产生了浓厚兴趣,于是打开浏览器开始悠闲地搜索起来。
这些失误说明该技术仍存在很大的提升空间。
数据显示,尽管Claude在使用电脑方面的表现已经达到了业界领先水平:它在OSWorld电脑操作评估测试中获得了14.9%的成绩,远超其他AI模型的7.8%最高分,但与人类的70-75%的水平相比仍有相当大的差距。
当用户提供更多完成任务所需的步骤时,Claude的得分可以提升到22.0%。
目前,一些对人类来说轻而易举的电脑操作,如滚动、拖拽和缩放等,对Claude来说仍具有相当的挑战性。此外,由于它是通过连续的截图来“观察”屏幕,而不是更细粒度的视频流,这使得它可能会错过一些间隔较短的操作或通知。
升级版Claude 3.5 Sonnet性能如何?
在各种基准测试的考验下,新版Claude 3.5 Sonnet的表现依旧亮眼。
在软件工程方面,它在SWE-bench Verified评测中的得分从33.4%大幅跃升至49.0%,一举超越了包括OpenAI o1-preview在内的所有公开可用模型。
(来源:Anthropic,亚历克斯)
在零售领域的TAU-bench测试中,其表现从62.6%提升到69.2%,在难度更高的航空领域测试中也从36.0%提升至46.0%。这些数据充分证明了其在复杂任务处理方面的显著进步。
在推理方面,新版Claude 3.5 Sonnet的推理测试基准GPQA (Diamond) 成绩为65%,超过了GPT-4o的53.6%。不过OpenAI o1-preview并不在对比之列,Anthropic给出的理由是,“该系列模型依赖大规模回复前计算时间,与一般模型不同”。
知名开发平台GitLab对新版Claude进行的测试显示,在DevSecOps任务中,模型的推理能力提升了10%,且没有增加任何延迟。Browser Company在使用该模型实现网页工作流自动化时也发现,新版Claude的表现超越了他们之前测试过的所有模型。
与此同时,新版Claude 3.5 Sonnet的价格并未改变:每百万输入Token 3美元,每百万输出Token 15美元。
此次更新中,Anthropic还正式推出了Claude 3.5 Haiku。它是Claude 3.5系列里体积最小,但响应速度最快的模型。
与前辈Claude 3 Haiku相比,它的各项技能都得到了全面提升,甚至在多个智能基准测试中超越了上一代最强模型Claude 3 Opus。
在SWE-bench Verified测试中,Haiku获得了40.6%的高分,超过了许多使用最先进模型的AI智能代理。
Anthropic表示,凭借其低延迟、更准确的指令执行能力和工具使用能力,Haiku特别适合需要大量交互的面向用户的产品,以及使用海量数据生成个性化体验。
Claude 3.5 Haiku预计将于本月晚些时候推出,可用平台包括Anthropic API、Amazon Bedrock和谷歌云Vertex AI。起初它仅支持纯文本输入,未来将加入图像输入功能。
Claude 3.5 Haiku的定价是每百万输入Token 0.25美元,每百万输出Token 1.25美元。
值得注意的是,目前Claude 3.5模型系列仍有Opus尚未亮相。这应该是其中体积最大、性能最强的模型。
考虑到AI技术可能被滥用于制造垃圾信息、传播错误信息或实施欺诈等行为,而且它现在还能直接操控用户电脑,Anthropic在放出更新的同时,格外强调了对模型安全性的重视。
该公司专门开发了新的分类器和其他方法来识别和减轻潜在的滥用风险。特别是考虑到即将到来的美国大选,他们加强了对相关活动的监控力度并建立了相应机制,引导Claude避开某些敏感电脑操作,如在社交媒体发布内容、注册网站域名或与政府网站交互等。
安全性验证方面,新版Claude 3.5 Sonnet已经通过了美国AI安全研究所(US AISI)和英国安全研究所(UK AISI)的联合测试。
根据Anthropic的负责任扩展政策(Responsible Scaling Policy),新版Claude 3.5 Sonnet仍然保持在AI安全等级2级(ASL-2),这表明现有的安全和安保措施足以应对其带来的风险。
该公司特别强调,他们不会将用户提交的数据(包括Claude接收到的屏幕截图)用于训练生成式AI模型。
对于“提示注入”类网络攻击,Anthropic也采取了防范措施。由于Claude能够解释来自互联网的屏幕截图,因此可能会接触到包含恶意指令的内容,这些指令可能会导致原有指令被覆盖或执行与用户原意相违背的操作。
图 | Anthropic提醒开发者注意风险(来源:Anthropic)
为此,该公司为开发者提供了详细的实施参考指南,帮助他们采取相应的预防措施,其中包括:
1.使用具有最小权限的专用虚拟机或容器,以防止直接的系统攻击或事故。
2.避免让模型访问敏感数据,例如帐户登录信息,以防止信息盗窃。
3.将互联网访问限制在域名允许列表中,以减少接触恶意内容的机会。
4.要求人类确认可能导致有意义的现实世界后果的决定,以及任何需要征求同意(授权)的任务,例如接受 cookie、执行金融交易或同意服务条款。
尽管AI直接操作电脑的技术仍有局限性和隐藏风险,但它所代表的突破性进展仍然令人兴奋。它预示着AI技术正在向着更加实用和智能的方向迈进。通过不断改进和完善,我们有理由相信,AI助手将在未来变得更快、更可靠,能更好地满足用户的各种需求。
正如Anthropic开发者关系负责人所说:“Computer Use功能是迈向全新人机交互形式的第一步。再过几年,我们与计算机交互的方式将与今天完全不同。” 6park.com