What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning

作者: Songze Li, Xiaoke Guo, Tianqi Liu, Biao Yi, Zhaoyan Gong, Zhiqiang Liu, Huajun Chen, Wen Zhang

分类: cs.AI

发布日期: 2026-04-08

备注: ACL 2026 Findings

💡 一句话要点

提出UI-in-the-Loop范式，增强多模态GUI推理中UI元素的理解与交互。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI推理 UI理解 多模态学习 大型语言模型 人机交互

📋 核心要点

现有GUI推理方法依赖屏幕直接决策，缺乏可解释性，忽略UI元素理解，导致任务失败。
UILoop范式将GUI推理视为屏幕-UI元素-动作的循环过程，显式学习UI元素的定位、功能和用法。
构建包含26K样本的UI Comprehension-Bench基准，实验表明UILoop在UI理解和GUI推理上均取得SOTA效果。

📝 摘要（中文）

现有的图形用户界面(GUI)推理任务仍然具有挑战性，尤其是在UI理解方面。目前的方法通常依赖于直接的基于屏幕的决策，缺乏可解释性，并且忽略了对UI元素的全面理解，最终导致任务失败。为了增强对UI的理解和交互，我们提出了一种创新的GUI推理范式，称为UI-in-the-Loop (UILoop)。我们的方法将GUI推理任务视为一个循环的屏幕-UI元素-动作过程。通过使多模态大型语言模型(MLLM)能够显式地学习关键UI元素的定位、语义功能和实际用法，UILoop实现了精确的元素发现并执行可解释的推理。此外，我们引入了一个更具挑战性的UI理解任务，该任务以UI元素为中心，并具有三个评估指标。相应地，我们贡献了一个包含26K样本的基准(UI Comprehension-Bench)，以全面评估现有方法对UI元素的掌握程度。大量的实验表明，UILoop在实现最先进的UI理解性能的同时，在GUI推理任务中也产生了优越的结果。

🔬 方法详解

问题定义：现有GUI推理任务面临UI理解的挑战，现有方法直接基于屏幕进行决策，缺乏对UI元素语义和功能的深入理解，导致推理过程不透明且容易出错。因此，如何提升模型对UI元素的理解能力，并将其融入到GUI推理过程中，是本文要解决的核心问题。

核心思路：本文的核心思路是将GUI推理过程分解为屏幕、UI元素和动作之间的循环交互。通过显式地学习和利用UI元素的属性（如位置、类型、功能），模型可以更准确地理解用户界面的状态，并做出更合理的决策。这种“UI在环”的范式旨在提高推理的可解释性和鲁棒性。

技术框架：UILoop框架包含以下主要模块：1) UI元素检测模块：用于识别和定位屏幕上的UI元素。2) UI元素理解模块：利用多模态大型语言模型(MLLM)学习UI元素的语义功能和使用方法。3) 动作预测模块：基于UI元素的理解，预测下一步应该执行的动作。整个流程是一个循环迭代的过程，模型不断地观察屏幕、理解UI元素、执行动作，并根据反馈调整策略。

关键创新：UILoop的关键创新在于将UI元素显式地纳入到GUI推理的循环中。与以往直接从屏幕像素进行决策的方法不同，UILoop强调对UI元素的理解和利用。这种方法不仅提高了推理的准确性，还增强了模型的可解释性。此外，构建的UI Comprehension-Bench基准，为评估UI理解能力提供了新的标准。

关键设计：在UI元素理解模块中，作者使用了多模态大型语言模型(MLLM)，并设计了特定的训练目标，以鼓励模型学习UI元素的定位、语义功能和实际用法。具体的训练细节（如损失函数、网络结构等）在论文中应该有更详细的描述，但摘要中未提及。推测可能使用了对比学习或生成式学习的方法来增强模型对UI元素的表征能力。

🖼️ 关键图片

📊 实验亮点

UILoop在UI理解任务上取得了state-of-the-art的性能，并在GUI推理任务中也获得了优越的结果。具体的数据和对比基线需要在论文中查找，摘要中没有给出具体的数值。

🎯 应用场景

该研究成果可应用于自动化测试、智能助手、无障碍设计等领域。例如，可以利用该技术自动执行软件测试，提高测试效率和覆盖率；可以构建更智能的语音助手，实现更自然的UI交互；可以帮助残障人士更方便地使用计算机和移动设备。

📄 摘要（原文）

Existing Graphical User Interface (GUI) reasoning tasks remain challenging, particularly in UI understanding. Current methods typically rely on direct screen-based decision-making, which lacks interpretability and overlooks a comprehensive understanding of UI elements, ultimately leading to task failure. To enhance the understanding and interaction with UIs, we propose an innovative GUI reasoning paradigm called UI-in-the-Loop (UILoop). Our approach treats the GUI reasoning task as a cyclic Screen-UI elements-Action process. By enabling Multimodal Large Language Models (MLLMs) to explicitly learn the localization, semantic functions, and practical usage of key UI elements, UILoop achieves precise element discovery and performs interpretable reasoning. Furthermore, we introduce a more challenging UI Comprehension task centered on UI elements with three evaluation metrics. Correspondingly, we contribute a benchmark of 26K samples (UI Comprehension-Bench) to comprehensively evaluate existing methods' mastery of UI elements. Extensive experiments demonstrate that UILoop achieves state-of-the-art UI understanding performance while yielding superior results in GUI reasoning tasks.

What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理