微软亚洲研究院

UI-E2I-Synth：为Computer Use Agent打造更真实、更具挑战性的开源Grounding测试基准

公開済み 7月 30, 2025

このページを共有

编者按：近年来，大模型在多模态交互中的应用不断深入，使得人机交互中的“理解能力”面临新的挑战。特别是在 Compute Use Agent 的发展背景下，如何准确理解用户的自然语言指令并将其映射到复杂 GUI 界面中的相应元素（即 “GUI Grounding” 任务）成为关键。然而，现有的公开数据集难以全面覆盖真实使用场景中的各种难点。对此，微软亚洲研究院提出了 UI-E2I-Synth，不仅构建了大规模高质量合成数据集，还推出了更具挑战性与现实性的测试基准 UI-I2E-Bench，系统性解决了当前任务中的三大关键问题。相关论文已被 ACL 2025 收录。

随着多模态智能体在复杂人机交互任务中的应用不断被拓展，大模型理解和操作图形用户界面（GUI）的能力正变得日益关键。GUI Grounding，即根据用户的自然语言指令，准确定位屏幕截图中对应的界面元素，已成为当前 Compute Use Agent 开发中的核心挑战之一。

然而，现有的公开训练数据集规模有限，且高质量指令的人工标注成本高昂，制约了该任务的进一步发展。当前研究面临着三个尚未被充分探索的关键问题：

1. 元素与屏幕的比例失真：现有基准测试（如ScreenSpot）的界面元素相对屏幕明显偏大，远离真实用户场景中的高分辨率、小元素界面。这可能导致模型的性能被高估。

2. 元素类型分布失衡：不同类型的 GUI 元素（如文本按钮、复选框等）具有不同的视觉风格和交互方式。但现有基准中文本和图标类型占比过高，缺乏对其他类型的覆盖。

3. 隐式指令理解能力弱：现实用户在发出指令时往往依赖于对元素功能或位置的直观理解，而非直接引用屏幕上的可见文本，这类“隐式指令”对视觉语言模型（VLMs）的理解和推理能力提出了更高的要求。

针对这些问题，研究员们提出了一个端到端的大规模数据合成方法 UI-E2I-Synth，并使用半自动方式构建了一个全新的测试基准 UI-I2E-Bench。相关论文已被 ACL 2025 接收。

UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis

论文链接：https://arxiv.org/abs/2504.11257 (opens in new tab)

GitHub 链接：https://github.com/microsoft/FIVE-UI-Evol/tree/main (opens in new tab)

UI-I2E-Bench Leaderboard 链接：https://microsoft.github.io/FIVE-UI-Evol (opens in new tab)

chart, bar chart, waterfall chart — 图1：相比于已有的测试基准 ScreenSpot，UI-I2E-Bench 的屏幕元素比例更接近于常用的 1080P 显示器，并根据指令的隐含程度进行了标注且具有更丰富、平衡的元素类型。

构建从数据到模型的完整链条：合成方法、评测基准与VLM性能突破

UI-E2I-Synth 的核心在于，利用大语言模型（如GPT-4o）而非人工标注来合成各种复杂度的真实指令。该管道遵循“分而治之”原则，整体流程分为三个步骤：

首先是原始数据的收集与解析。从网页、Windows 和 Android 等多个平台收集截图-元数据对，使用启发式解析器提取元素类型、内容和边界框等可靠属性，以缓解幻觉问题，确保结构可靠且可用于后续建模。其次是指代表达式（referring expressions, RE）生成。结合 Set-of-Marks 截图和元素属性，通过 GPT-4o 生成显式和隐式两种类型的指代表达式，以增加指令的多样性。最后是指令合成。再次利用 GPT-4o 模拟用户行为，生成特定的动作参数（如点击、输入内容），并与指代表达式结合，合成最终的真实用户指令。

在合成数据的基础上，研究员们通过人工精校的方式引入了一个全新的测试基准 UI-I2E-Bench。该基准纳入了更丰富的标注维度，包括元素类型、元素与屏幕的比例、指令隐含程度等，为未来的 GUI Grounding 模型开发提供了进一步的见解。

利用 UI-E2I-Synth 生成的990万条指令数据，研究员们训练了 UI-I2E-VLM-4B 和 UI-I2E-VLM-7B。评估结果显示，UI-I2E-VLM-7B 在 UI-I2E-Bench、ScreenSpot 和 ScreenSpot-Pro 等基准测试中，使用更少的训练数据（仅为 OS-Atlas 的72%）就取得了优异的表现。UI-I2E-VLM 在处理隐式指令和小元素（低元素-屏幕比例）方面表现出显著优势，并提升了对图标和输入框等长尾元素类型的识别能力。研究还发现，现有基准如 ScreenSpot 可能因其较低的难度高估了模型性能。

table — 表1：通过 UI-E2I-Synth，研究员们合成了高质量训练数据并开发了 UI-I2E-VLM 系列模型，取得了领先的 GUI Grounding 性能

借助 UI-I2E-Bench 的细致标注，研究员们进一步对模型性能展开了诊断分析，发现针对指令类型，模型在处理隐式指令时提升显著，而以往低估了指令的复杂性。例如，领先模型 OS-Atlas-7B 在此维度上落后12.1个百分点。OmniParser 依托 GPT-4o，在隐式指令任务上表现突出，但在显式指令上表现一般，其主要瓶颈在于细小和长尾元素的定位。关于元素与屏幕比例，分析结果显示元素尺寸越小，其准确率下降越明显。这说明小尺寸元素和高分辨率图像对基准测试至关重要。UI-I2E-VLM 凭借更丰富的训练数据和更多输入图像 token，在小尺寸元素定位上表现更佳。在元素类型方面，现有模型在“图标”和“输入框”这类长尾类别上的表现存在明显短板。对此，UI-E2I-Synth 通过均衡元素类型分布，提升了模型对这些类别的处理能力。