微软开源视觉GUI智能体：增强GPT-4V能力，超3800颗星

微软研究人员开源了名为OmniParser的纯视觉GUI智能体，旨在解决多模态视觉大模型在将预测动作转换为UI实际操作时的难题，特别是在理解和推理视觉内容方面。

摘要

OmniParser能够将用户界面截图解析为结构化元素，显著增强了模型对应界面区域预测的能力，减轻了GPT-4V等模型在动作预测时的负担。

OmniParser的核心组件包括一个微调的交互式图标检测模型、一个微调的图标描述模型以及OCR光学字符识别模块，这些组件协同工作生成用户界面的结构化表示，并在截图上叠加显示潜在可互动元素的边界框。

研究人员利用大规模数据集和Set-of-Marks方法训练模型，使其能够识别多种类型的可互动图标，并在不同上下文环境中识别新样式或未曾见过的图标。

在多个基准测试中，与OmniParser集成后的GPT-4V性能得到显著提升，超过了同类模型，在不同任务中显示出更高的操作准确性和图标分配能力。

随着GPT-4V等多模态视觉大模型的出现，在理解和推理视觉内容方面获得了巨大进步。但是将预测的动作准确转换为UI上的实际操作时却很难。

例如，难以准确识别用户界面内可交互的图标，以及在理解屏幕截图中各种元素的语义并将预期动作与屏幕上相应区域的关联。

为了解决这个难题，微软研究人员开源了纯视觉GUI智能体OmniParser，能够轻松将用户界面截图解析为结构化元素，显著增强GPT-4V等模型对应界面区域预测的能力。目前，OmniParser在Github上非常火，已经超过3800颗星。

开源地址：https://github.com/microsoft/OmniParser

通常在UI识别操作任务中，模型需要具备两个关键能力：一是理解当前UI屏幕的内容，包括分析整体布局以及识别带有数字 ID 标注的图标的功能；二是基于当前屏幕状态预测下一步有助于完成任务的动作。

研究人员发现，将这两个任务整合在一个模型中执行会给模型带来较大负担，影响其性能表现。因此，OmniParser 采用了一种分阶段处理的策略，在屏幕解析阶段预先提取相关信息，来减轻GPT - 4V在动作预测时的负担，使其能够更好地聚焦于核心任务。

OmniParser的核心组件包括一个微调的交互式图标检测模型、一个微调的图标描述模型以及OCR光学字符识别模块。这三个组件协同工作，可以生成用户界面的结构化表示，类似于文档对象模型，并且还会在截图上叠加显示潜在可互动元素的边界框。

在OmniParser的整体架构中，可互动区域检测模型扮演着至关重要的角色，是识别用户界面截图中所有潜在可互动元素的关键组件。为了训练这样一个高效的检测模型，研究人员采取了一系列策略和技术手段。

首先，利用先前构建的大规模数据集，该模型被赋予了识别多种类型可互动图标的能力。这些图标包括但不限于按钮、链接、菜单选项等常见控件。通过对大量带有精确边界框标注的真实网页截图进行学习，模型逐渐掌握了不同类型图标之间的细微差别，以及它们在不同上下文环境中可能出现的变化形式。不仅提高了模型的泛化能力，也使其能够在遇到新样式或未曾见过的图标时仍能做出准确判断。

除了直接使用图像作为输入外，研究人员还引入了一种称为Set-of-Marks的方法来辅助训练过程。这种方法通过在原始截图上叠加一层高亮显示的边界框来明确指出哪些区域属于可互动元素，可以有效地引导模型关注那些真正重要的地方，而非整个屏幕的所有细节。