{{!completeInfo?'请完善个人信息':''}}
OpenAI于1月24日发布了一款名为Operator的AI智能体,能够代理用户执行基于网页的操作,如点击、滚动和输入文字,完成购买杂货、预订餐厅等任务。该智能体通过OpenAI的新模型CUA(Computer-Using Agent)驱动,具备复杂的思维链反思和步骤规划能力,能够泛化完成多种复杂任务,如在Arxiv上搜索论文并整理综述。
摘要
Operator的核心驱动力是CUA模型,该模型结合了GPT-4o的视觉能力和高级推理能力,能够像人类一样与图形用户界面(GUI)交互,无需依赖特定操作系统或API。CUA在多个基准测试中取得了领先表现,如在WebVoyager的网页任务中成功率为87%。它通过处理原始像素数据完成任务,并具备感知、推理和行动的迭代循环。
Operator目前以“研究预览”形式向美国的ChatGPT Pro用户开放,订阅费用为每月200美元。OpenAI计划逐步将该功能推广到ChatGPT的其他用户群体,并与其他国家的用户合作,但欧洲地区可能需要更长时间。OpenAI还与Instacart、Uber等科技公司合作,以便用户更便捷地访问这些平台。
尽管Operator潜力巨大,但其易用性和安全性仍面临挑战。目前,大多数AI智能体(包括苹果的Apple Intelligence)尚未广泛应用于日常事务,企业也多处于测试阶段。Operator可能面临的风险包括恶意网站欺骗用户、用户试图欺骗代理以及“提示注入”攻击等。为应对这些风险,Operator推出了“接管模式”,要求用户手动输入敏感信息,并在高风险任务前征求用户批准。
OpenAI首席运营官布拉德·莱特卡普表示,Operator能够在家庭和工作中节省时间,尤其是在自动化常见任务方面具有巨大潜力。尽管目前仍处于早期阶段,但OpenAI认为Operator已具备有限发布的条件,并将继续优化其隐私、安全和控制功能,以确保用户对AI的控制权。
1月24日消息,OpenAI在北京时间凌晨举行直播活动,发布了市场期待已久的AI智能体Operator(意为操作员),它能够代理用户执行基于网页的操作,像人类一样点击、滚动和输入文字,完成诸如购买杂货、预订餐厅以及提交费用报告等任务。
在此之前,包括微软、Salesforce和Workday等商业软件公司纷纷推出了各自的智能体。
谷歌和人工智能初创公司Anthropic近期也推出了类似的智能体工具,它们与OpenAI的Operator相似,能够浏览网页并与菜单和按钮进行交互。
但Operator的特点是,与其他各家Agent相比,它会通过CUA的系统进行复杂的思维链反思和步骤规划。这可以大大提高其完成任务的精度和复杂性。在不依靠对具体任务进行精调的情况下,Operator就能泛化的完成多种复杂任务。
虽然在直播的实机演示中,OpenAI仅仅展示了网购、订餐等基础操作。但在后续的部分用户测试中,它甚至可以完成在Arxiv上进行论文分类搜索,阅读多篇论文并完成综述整理的复杂工作。
而且这个工作肯定是不太可能被纳入传统精调过的“意图理解”框架内的。
另外,CUA本身在网页控制和系统控制方面也达到了SOTA。虽然仍和人类有相当差距,但在演示中整体行动相当流畅。
目前,OpenAI的“Operator”智能体以“研究预览”(research preview)的形式向美国的ChatGPT Pro用户开放。这一阶段表明该产品仍处于发展初期,可能存在局限性,在演进过程中可能会出现错误。ChatGPT Pro的订阅费用为每月200美元,该服务专为需要高级AI功能的专业用户设计,提供无限制访问包括GPT-4o和o1在内的高级模型。
OpenAI表示,计划将Operator功能逐步推广到ChatGPT的Plus、Team和Enterprise用户。在直播活动中,OpenAI首席执行官山姆·奥特曼(Sam Altman)提到,Operator功能将很快在其他国家推出,但欧洲地区可能需要更长时间。
OpenAI首席运营官布拉德·莱特卡普(Brad Lightcap)表示,Operator能够在家庭和工作中节省时间,尤其是在自动化常见任务方面存在“巨大潜力”。”他指出:“Operator从根本上改变了人们与计算机的交互方式。这是一个艰巨的技术挑战,其价值取决于它的实用性。”
此外,OpenAI正在与包括Instacart、Uber、eBay、Priceline、OpenTable和Etsy在内的科技公司合作,以便让用户在Operator主页上更便捷地访问这些公司的网页。
Operator背后的驱动力是OpenAI的新模型“计算机使用智能体”(Computer-Using Agent,简称CUA)。
该模型融合了GPT-4o的视觉能力与通过强化学习实现的高级推理能力。CUA经过训练,能够像人类一样与图形用户界面(GUI)交互,包括屏幕上的按钮、菜单和文本框。这种能力使其能够灵活地执行数字任务,无需依赖特定操作系统或网页的API。
CUA的开发基于多年在多模态理解和推理领域的基础研究。它结合了高级的图形用户界面感知能力与结构化的问题解决能力,能够将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正。
这一能力标志着人工智能发展的新阶段,使模型能够使用人类日常依赖的工具,并为一系列新应用打开了大门。
尽管CUA仍处于早期阶段且存在局限性,但它已经在多个基准测试中取得了新的最高水平:在OSWorld的完整计算机使用任务中成功率为38.1%,在WebArena中为58.1%,在WebVoyager的网页任务中为87%。
这些结果表明,CUA能够在多样化的环境中使用单一通用动作空间(a single general action space)进行操作。
原文链接:点击前往 >
文章作者:腾讯科技
版权申明:文章来源于腾讯科技。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/
{{likeNum}}
好文章,需要你的鼓励