OpenAI推出Operator,一个能够自主执行任务的AI代理
OpenAI首席执行官Sam Altman在今年初的一篇博客文章中提到,2025年将是AI代理的大年,这些工具可以自动化任务并代表用户执行操作。
现在,我们看到了OpenAI的首次真正尝试。
OpenAI于周四宣布,将推出Operator的研究预览版,这是一个通用AI代理,可以控制网页浏览器并独立执行某些操作。Operator将首先面向美国用户,作为ChatGPT的200美元Pro订阅计划的一部分。OpenAI表示,计划最终将这一功能推广到更多用户,包括Plus、Team和Enterprise层级的用户。
“Operator将很快在其他国家推出,”OpenAI首席执行官Sam Altman在周四的直播中表示。“不幸的是,欧洲还需要一段时间。”
这个初步的研究预览版可以通过operator.chatgpt.com访问,但OpenAI表示,很快希望将Operator集成到所有ChatGPT客户端中。
Operator的主屏幕。图片来源: OpenAI
据OpenAI介绍,Operator承诺可以自动化诸如预订旅行住宿、餐厅预订和在线购物等任务。用户可以在Operator界面中选择多个任务类别,包括购物、配送、餐饮和旅行——所有这些都支持不同类型的自动化。
当ChatGPT用户激活Operator时,会弹出一个小的窗口,显示代理用于完成任务的一个专用网页浏览器,并附有代理正在执行的具体操作的说明。用户仍然可以在Operator工作时控制他们的屏幕,因为Operator使用自己的专用浏览器。
OpenAI表示,Operator由一个计算机使用代理模型(Computer-Using Agent model,CUA)驱动,该模型结合了公司GPT-4o模型的视觉能力和OpenAI更高级模型的推理能力。CUA被训练为与网站的前端进行交互,这意味着它不需要使用面向开发者的API来接入不同的服务。
换句话说,CUA可以像人类一样使用按钮、导航菜单并填写网页上的表单。
OpenAI表示,它正在与DoorDash、eBay、Instacart、Priceline、StubHub和Uber等公司合作,以确保Operator尊重这些企业的服务条款协议。
图片来源: OpenAI
“CUA模型被训练为在完成具有外部影响的任务之前请求用户确认,例如在提交订单、发送电子邮件等之前,以便用户可以在任务永久生效之前再次检查模型的工作,”OpenAI在提供给TechCrunch的材料中写道。“[它]已经在多种情况下证明有用,我们旨在将这种可靠性扩展到更广泛的任务中。”
但OpenAI警告说,CUA并不完美。公司表示,“[我们]不期望CUA在所有场景中都能可靠地执行任务。”
“目前,Operator无法可靠地处理许多复杂或专门的任务,”OpenAI在支持文档中补充道,“例如创建详细的幻灯片、管理复杂的日历系统或与高度定制或非标准的网页界面进行交互。”
出于谨慎考虑,OpenAI还要求对一些任务进行监督,比如银行交易,CUA和Operator可以大部分自主完成。例如,用户需要接管以输入信用卡信息。OpenAI表示,Operator不会收集或截图任何数据。
“在特别敏感的网站上,例如电子邮件,Operator需要用户的主动监督,确保用户可以直接捕捉并解决模型可能犯的任何潜在错误,”OpenAI在其支持材料中表示。
这无疑限制了Operator的实用性——但也确保了代理不会产生幻觉,比如说,把你的房贷支付花在装饰椅上。谷歌在其Project MarinerAI代理中也采取了类似的方法,该代理也不会填写信用卡号等信息。
限制
Operator有一些值得注意的限制。
存在速率限制——既有每日限制,也有任务依赖的限制。OpenAI表示,Operator可以同时执行多个任务,但对此存在“动态限制”。还有一个每日重置的总体使用限制。
在此发布阶段,Operator还会出于安全原因直接拒绝执行某些任务,例如发送电子邮件(尽管CUA能够做到这一点)和删除日历事件。OpenAI表示,这将在未来改变,但没有给出具体时间表。
如果遇到特别复杂的界面、密码字段或验证码检查,Operator也可能会“卡住”。OpenAI表示,当这种情况发生时,它会要求用户接管。
代理的未来
与竞争对手相比,OpenAI在开发AI代理方面进展较慢,这可能与该技术的安全风险有关。
当AI系统可以在网络上执行操作时,它为恶意行为者打开了更危险的使用案例的大门。你可以自动化AI代理来策划钓鱼诈骗或DDoS攻击,或者让它们在其他人之前抢购音乐会门票。特别是对于像ChatGPT这样广泛使用的工具,OpenAI采取措施防止这些类型的利用是非常重要的。
OpenAI似乎认为Operator在目前的形式下足够安全,至少作为研究预览版发布。
“Operator采用了旨在限制模型对恶意提示、隐藏指令和钓鱼攻击的敏感性的工具,”OpenAI在其网站上解释道。“如果检测到可疑活动,监控系统会暂停执行,同时自动和人工审查的管道会不断更新安全措施。”
Operator是OpenAI迄今为止在创建AI代理方面最大胆的尝试。上周,OpenAI发布了Tasks,为ChatGPT提供了简单的自动化功能,例如设置提醒和安排每天在固定时间运行的提示。
Tasks为ChatGPT用户提供了一些熟悉但必要的功能,使ChatGPT像Siri或Alexa一样实用。然而,Operator展示了上一代虚拟助手无法实现的功能。
AI代理被认为是继ChatGPT之后AI领域的下一个大事件:一项将改变人们使用互联网和PC方式的新技术。代理不仅可以传递和处理信息,理论上还可以执行操作并实际做事。
随着OpenAI首次推出具体的代理产品,这一愿景的现实性将很快变得清晰。