AI助手会成为AI OS吗

通过自然语言处理和Agent技术，AI助手能够执行复杂任务，如在不同硬件上打开特定应用或网页，这标志着AI助手从简单的对话能力向更高级的执行能力发展。

摘要

企业和开发者正在探索和改进人机交互的方式，通过大模型技术，AI助手能够理解图形界面，代替用户完成重复性操作，提高了交互的自然性和便捷性。

OpenAI和智谱对AI发展阶段的划分，强调了使用工具的能力是AI第三阶段的标志，预示着AI将能够承担更复杂的社会化协作任务。

尽管Agent在执行复杂任务时还存在局限性，如操作等待时间长、需要精确的描述输入等，但其潜力在于能够连接和调用不同的应用，甚至未来可能直接控制硬件。

随着Agent能力的拓展和原生AI硬件的发展，可能会出现基于自然语言和Agent交互的AI操作系统，这将是一个软硬件体验的“自动驾驶”时代。

当我利用智谱刚刚推出的GLM-PC，打字告诉我的电脑：「在Edge浏览器上打开百度搜索，搜索并打开得到APP的主页」，并在二十多秒后看到这个页面被成功打开时，感觉就像一个刚开始学习编程的人，成功敲出了「Hello World」。

这种新体验的出现，正在加速新人机交互时代的到来。大模型技术的发展让人们能够在不同硬件上，通过自然语言完成复杂任务的执行。而这种人机交互体验的不断完善，是构建起一个具备执行能力的完全体AI助手的关键环节之一。拥有执行能力的Agent，才能真正发挥出AI作为人类助手的价值。

当下，越来越多的企业开始致力于新人机交互体验的开发和升级。智谱在升级AutoGLM能力的同时，推出了浏览器插件 AutoGLM-Web 和 GLM-PC，进一步拓展了使用场景。Anthropic的computer use同样处在测试阶段，并「将在未来几个月内迅速提高能力」。OpenAI和Google的类似产品也已经在开发过程中。

一方面，尽管在体验上还存在诸多不足，但代理执行能力已经成为大模型的又一种基础能力；另一方面，人机交互的未来只被掀开了一角，探索还在很早期，主要在利用大模型对原有的图形界面交互进行改良，让大模型看懂图形界面，代替人去完成机械性的重复操作。

从长远来看，在大模型具备并持续完善对话、推理、执行能力，且原生AI硬件快速发展的前提下，我们可以期待一场更加彻底的人机交互迭代。「图形界面+应用」的组合，很有可能会被「AI助手+Agents」的组合替代，AI助手会成为AI OS的化身。

使用工具是大模型的一次迭代

目前，人们能有机会体验到智谱和Anthropic两家的代理执行产品。其中，Anthropic是通过API让Claude能够像人一样操作电脑，实现看屏幕、打字、移动光标等操作。智谱则通过基于 Agent 技术的 AutoGLM 和 GLM-PC 两款产品，去看懂和理解 OS 系统的操作界面，不管是手机、电脑还是 Web。

从真实的使用体验来看，智谱的产品能够帮用户完成一些回复微信消息、在微信内搜索文章等任务，并具备一定的容错率。即便我把回复对象的名字「乓乒」错输成了「乒乒」，它还是能够准确找到人。但在让AutoGLM帮我打开虎嗅的微信公众号搜索AI相关内容时，它的语音把虎嗅识别成了胡秀和互秀，需要人工介入进行调整。

AutoGLM执行复杂任务的能力还有一定的局限性。我们可以让它跨外卖应用进行比价，但让它帮助总结微信搜索结果中各条内容的概要时，它只总结了第一条的。此外，这类产品的操作等待时间比较长，且需要用户输入精准的描述，如果将关闭标签页输入成关闭主页，也无法正确完成操作。

即便能力和体验都还有很大的提升空间，智谱和Anthropic的尝试也给行业指出了一条新的突破方向，让AI具备了进入Agentic AI阶段的可能。在OpenAI和智谱对AI的发展阶段划分中，使用工具的能力都被视为AI第三阶段的标志。

OpenAI认为，人工智能的五个阶段是：可以与人类对话的聊天机器人；可在解决问题上与人类并驾齐驱的推论者；可采取行动的AI系统；能够帮助发明的创新者以及可完成组织任务的组织者。智谱对五个阶段的划分则包括：语言能力（多模态能力）、逻辑能力、使用工具的能力、自我学习能力、探究科学规律。

OpenAI和智谱的五个阶段划分虽然有所不同，但参考人的成长阶段，都能被分成掌握基础技能和实现社会化学习两个部分。前者是让AI像幼儿一样，具备了对话、推理和使用工具的能力；后者则是让AI进入到上学和工作的阶段，开始学习更复杂的知识，并承担更复杂的社会化协作。

在智谱CEO张鹏看来，智谱的AI目前在语言能力上已经达到了人类80%甚至90%的水平，在推理能力上也具备了人类60%的水平（尽管复杂推理能力只有 30%）。但是在行动能力或工具使用能力上，仅具备了人30%至40%的能力，有能力去理解图形化界面，规划和完成复杂任务，却不能保证更好的效果和更广泛的适用性。

让AI具备使用工具的能力是完成基础技能养成的标志。这意味着，AI能够在不断完善对话、推理和行动三项能力的基础上，去开发更实用的功能，解决更多实际问题，并且开始对现实世界的发展进程产生更深刻地影响。其中，最为显著的改变就是推开了一个人机交互新时代的大门。

能力提升带来人机交互新可能

从命令行界面到键盘鼠标，再到触控，工程师们一直在寻找人与机器进行交互的更好方式，不断缩短输入命令到执行，再到输出结果的路径。但如张鹏所说：「用户至今仍需要花费大量的时间去学习形形色色的软件的操作，在操作界面跨多个应用来完成复杂的工作流。这中间其实有大量的、重复性的、机械性的人机的交互。」

具备对话、推理、执行能力的大模型，让人不再需要迁就机器，而是让机器开始有能力去理解人的需求，代替人完成复杂任务，用户只需要清楚说出自己的意图即可。

以购物场景为例，在图形界面下，用户要买一袋洗衣液，需要完成打开购物软件、搜索洗衣液、比较价格和功能、填写收货地址、付款等动作，这些动作共同拼凑出了「我要买袋什么样的洗衣液」这个完整的需求。未来用户直接告诉大模型「我要买袋什么样的洗衣液」，大模型就会负责完成整个购买流程。

这是一次基础交互逻辑的变化，更符合人类使用自然语言进行交互的习惯。在这种交互逻辑下，将AI助手带向大众的Siri的创始团队提出过改变人类未来的三个要素：虚拟助理、AI机器人助理和AR。虚拟助理帮助处理信息世界中的事物，AI机器人助理处理现实世界中的事务，AR负责打通虚拟与现实两个世界。

在大模型的语境下，AR更像是一种内容显示方式，真正打通虚拟与现实两个世界的是拥有多模态能力的Agent。它不但可以听懂人类的命令，根据命令拆分出指令序列，还具备调动APP和硬件的功能，协同完成任务的能力。

就像我们已经看到的外卖比价、一句话点外卖、远程操控电脑执行任务等操作，Agent已经能够在一定程度上代替人去连接和调用不同的应用。就像张鹏所说，AutoGLM在用户和众多的应用APP之间添加了一个APP执行的调度层。

在未来，Agent未尝不能直接连接扫地机器人、电饭煲、新风机，实现对硬件能力的调用。从人操控硬件，到人通过Agent去管理和操控硬件的过程中，能够实现软硬件能力的更灵活解藕与组合。这可能意味着，人正在通过Agent实现与世界的自然语言交互。

走向AI OS的过渡阶段

当下，如果大胆假设，大模型或者其具像化的AI助手，很可能成为用自然语言驱动世界的新OS。只是，目前的尝试还停留在对图形界面交互进行改良的阶段。

一方面，Agent展示出了绕过传统的API接口模式，实现对APP的调用和操控的能力。但是，其完成任务执行所依赖的还是图形界面的窗口、图标、菜单、指针形成的操作路径，通过结构化的操作拼接出完整的用户意图。这很可能是一个人机交互的过渡阶段。

另一方面，就像很多人认为的那样，未来的AI OS大概率会是一个基于自然语言和Agent实现交互的底层系统。荣耀在智谱活动上分享了其认为手机上的AI OS需要具备三个特征：基于大模型驱动的AI内核；智能体驱动的AI交互；开放服务构建的AI生态。但目前并没有形成一个完善的智能体生态。

相较于APP，这个生态会更匹配由AI助手调用分子化软硬件能力的预期。未来随着智能体生态的不断壮大，会出现与之适配的原生AI OS，实现软硬件体验的「自动驾驶」体验。当然，这需要Agent能力实现进一步拓展。

首先，实现更广泛的连接是AI OS的基础。Agent需要有更多跨平台的能力，做到无处不在。无论是在智能手机内实现跨应用的任务执行，还是在手机、PC、AI硬件上实现不同硬件端的打通，都是Agent跨平台能力的体现。

未来具备更强跨平台能力的Agent，更有希望成为系统级的AI助手。正因如此，张鹏在OpenDay上着重强调「跨App」的升级，并定义这是Agent生态里面非常关键的一步。

从目前的实践来看，智谱、Anthropic、手机厂商的实践都更多是在拓展某一硬件端内的跨应用执行能力。这是一个比较现实且急迫的需求。就像前Android工程副总裁Singleton所说：「我们可以看到AI Agent的前景，但作为开发人员，构建任何好东西都太难了。」人们需要能够绕开应用墙的AI体验构建框架。

但是，在不同硬件端的打通上，还并没有更大的突破和进展。但参照智能手机时代小米与华为在设备连接上的不同进化路径，可以看到越早从系统底层进行打通，就能积累起越来越多的后期红利。尽管智谱在这次OpenDay上展示了在手机端、PC端和WEB端的能力，但不同端的Agent还没有在这些测试产品中实现打通。

其次，Agent能力的拓展，还需要与原生AI硬件的创新相结合。「往往其实硬件跟软件是一个互相塑造，互相定义的事情。我们看到了互联网时代，互联网定义了iPhone，iPhone又创造了全新的软件生态。我们也看到今天大模型正在试图定义硬件，而这些硬件的成熟一定也会给我们带来重新被定义的软件生态。」智谱COO张帆表示。

智谱发布了一个描绘未来人机交互场景的概念短片。在短片中，人能够通过自然语言在不同场景中与不同硬件实现交互，满足自己的不同需求。这需要诸如AI耳机、AI PC、AI宠物等更多AI原生硬件的支撑，当然也需要 Agent 能力将它们无缝地衔接起来，它们将是整个软硬件融合大系统的一部分。

在已经被揭开的未来的一角中，我们看到了从Agent到AI助手，再到AI OS的可能。就像张鹏所说：「Agent可以看作是大模型通用操作系统LLM-OS的雏形，未来有可能实现原生的人机交互。」

原文链接：点击前往 >

文章作者：窄播

版权申明：文章来源于窄播。该文观点仅代表作者本人，扬帆出海平台仅提供信息存储空间服务，不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任，如若转载请联系原文作者。更多资讯关注扬帆出海官网：https://www.yfchuhai.com/