OpenAI于1月24日发布了一款名为Operator的AI智能体，能够代理用户执行基于网页的操作，如点击、滚动和输入文字，完成购买杂货、预订餐厅等任务。该智能体通过OpenAI的新模型CUA（Computer-Using Agent）驱动，具备复杂的思维链反思和步骤规划能力，能够泛化完成多种复杂任务，如在Arxiv上搜索论文并整理综述。

摘要

Operator的核心驱动力是CUA模型，该模型结合了GPT-4o的视觉能力和高级推理能力，能够像人类一样与图形用户界面（GUI）交互，无需依赖特定操作系统或API。CUA在多个基准测试中取得了领先表现，如在WebVoyager的网页任务中成功率为87%。它通过处理原始像素数据完成任务，并具备感知、推理和行动的迭代循环。

Operator目前以“研究预览”形式向美国的ChatGPT Pro用户开放，订阅费用为每月200美元。OpenAI计划逐步将该功能推广到ChatGPT的其他用户群体，并与其他国家的用户合作，但欧洲地区可能需要更长时间。OpenAI还与Instacart、Uber等科技公司合作，以便用户更便捷地访问这些平台。

尽管Operator潜力巨大，但其易用性和安全性仍面临挑战。目前，大多数AI智能体（包括苹果的Apple Intelligence）尚未广泛应用于日常事务，企业也多处于测试阶段。Operator可能面临的风险包括恶意网站欺骗用户、用户试图欺骗代理以及“提示注入”攻击等。为应对这些风险，Operator推出了“接管模式”，要求用户手动输入敏感信息，并在高风险任务前征求用户批准。

OpenAI首席运营官布拉德·莱特卡普表示，Operator能够在家庭和工作中节省时间，尤其是在自动化常见任务方面具有巨大潜力。尽管目前仍处于早期阶段，但OpenAI认为Operator已具备有限发布的条件，并将继续优化其隐私、安全和控制功能，以确保用户对AI的控制权。

1月24日消息，OpenAI在北京时间凌晨举行直播活动，发布了市场期待已久的AI智能体Operator（意为操作员），它能够代理用户执行基于网页的操作，像人类一样点击、滚动和输入文字，完成诸如购买杂货、预订餐厅以及提交费用报告等任务。

在此之前，包括微软、Salesforce和Workday等商业软件公司纷纷推出了各自的智能体。

谷歌和人工智能初创公司Anthropic近期也推出了类似的智能体工具，它们与OpenAI的Operator相似，能够浏览网页并与菜单和按钮进行交互。

但Operator的特点是，与其他各家Agent相比，它会通过CUA的系统进行复杂的思维链反思和步骤规划。这可以大大提高其完成任务的精度和复杂性。在不依靠对具体任务进行精调的情况下，Operator就能泛化的完成多种复杂任务。

虽然在直播的实机演示中，OpenAI仅仅展示了网购、订餐等基础操作。但在后续的部分用户测试中，它甚至可以完成在Arxiv上进行论文分类搜索，阅读多篇论文并完成综述整理的复杂工作。

而且这个工作肯定是不太可能被纳入传统精调过的“意图理解”框架内的。

另外，CUA本身在网页控制和系统控制方面也达到了SOTA。虽然仍和人类有相当差距，但在演示中整体行动相当流畅。

目前，OpenAI的“Operator”智能体以“研究预览”（research preview）的形式向美国的ChatGPT Pro用户开放。这一阶段表明该产品仍处于发展初期，可能存在局限性，在演进过程中可能会出现错误。ChatGPT Pro的订阅费用为每月200美元，该服务专为需要高级AI功能的专业用户设计，提供无限制访问包括GPT-4o和o1在内的高级模型。

OpenAI表示，计划将Operator功能逐步推广到ChatGPT的Plus、Team和Enterprise用户。在直播活动中，OpenAI首席执行官山姆·奥特曼（Sam Altman）提到，Operator功能将很快在其他国家推出，但欧洲地区可能需要更长时间。

OpenAI首席运营官布拉德·莱特卡普（Brad Lightcap）表示，Operator能够在家庭和工作中节省时间，尤其是在自动化常见任务方面存在“巨大潜力”。”他指出：“Operator从根本上改变了人们与计算机的交互方式。这是一个艰巨的技术挑战，其价值取决于它的实用性。”

此外，OpenAI正在与包括Instacart、Uber、eBay、Priceline、OpenTable和Etsy在内的科技公司合作，以便让用户在Operator主页上更便捷地访问这些公司的网页。