GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation

作者: Tao Liu, Chongyu Wang, Rongjie Li, Yingchen Yu, Xuming He, Bai Song

分类: cs.AI, cs.CV

发布日期: 2025-10-31

备注: Published in NeurIPS 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

GUI-Rise：提出一种融合结构化推理和历史总结的GUI导航框架，提升跨领域泛化能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI导航 多模态大语言模型 结构化推理 历史总结 强化学习 Chain-of-Thought 跨领域泛化

📋 核心要点

现有GUI导航代理在跨领域泛化能力和历史信息有效利用方面存在不足，限制了其应用范围。
GUI-Rise框架通过结构化推理生成Chain-of-Thought分析，指导动作预测和历史总结，提升决策质量。
实验表明，GUI-Rise在标准基准上取得了最先进的结果，尤其是在领域外场景中表现出强大的泛化能力。

📝 摘要（中文）

多模态大型语言模型（MLLMs）在GUI导航代理方面取得了进展，但现有方法在跨领域泛化和有效利用历史信息方面存在局限性。本文提出了一种推理增强框架，该框架系统地整合了结构化推理、动作预测和历史总结。结构化推理组件生成连贯的Chain-of-Thought分析，结合了进度估计和决策推理，为即时动作预测和未来步骤的紧凑历史总结提供信息。基于此框架，我们通过在伪标签轨迹上进行监督微调和使用群体相对策略优化（GRPO）进行强化学习，训练了一个GUI代理，名为GUI-Rise。该框架采用专门的奖励，包括一个历史感知目标，直接将总结质量与后续动作表现联系起来。在标准基准上的全面评估表明，在相同的训练数据条件下，该方法取得了最先进的结果，尤其是在领域外场景中表现出色。这些发现验证了我们的框架在各种GUI导航任务中保持稳健的推理和泛化能力。

🔬 方法详解

问题定义：现有基于多模态大型语言模型的GUI导航代理在跨领域泛化能力和历史信息利用方面存在不足。它们难以有效地处理不同类型的GUI界面，并且无法充分利用历史交互信息来指导未来的动作决策，导致性能下降。

核心思路：GUI-Rise的核心思路是引入结构化推理和历史总结机制，增强代理的决策能力和泛化能力。通过结构化推理，代理可以更清晰地理解当前任务的状态和目标，并生成连贯的Chain-of-Thought分析。通过历史总结，代理可以将过去的关键信息压缩成紧凑的表示，以便在未来的决策中使用。

技术框架：GUI-Rise框架包含三个主要组件：结构化推理、动作预测和历史总结。首先，结构化推理组件接收GUI界面图像和历史信息作为输入，生成Chain-of-Thought分析，包括进度估计和决策推理。然后，动作预测组件基于Chain-of-Thought分析预测下一步的动作。同时，历史总结组件将Chain-of-Thought分析压缩成紧凑的历史摘要，用于指导未来的推理和动作预测。整个框架通过监督微调和强化学习进行训练。

关键创新：GUI-Rise的关键创新在于将结构化推理和历史总结相结合，形成一个闭环的反馈机制。结构化推理不仅指导动作预测，还用于生成历史摘要，而历史摘要又反过来影响未来的推理过程。这种设计使得代理能够更好地理解任务状态、利用历史信息，并做出更明智的决策。

关键设计：GUI-Rise使用Chain-of-Thought提示工程来引导结构化推理。在训练过程中，使用伪标签轨迹进行监督微调，并使用群体相对策略优化（GRPO）进行强化学习。特别地，设计了一个历史感知奖励函数，将历史摘要的质量与后续动作的表现直接联系起来，鼓励代理生成更有用的历史摘要。

📊 实验亮点

GUI-Rise在标准GUI导航基准测试中取得了最先进的结果，尤其是在领域外场景中表现出色。在相同的训练数据条件下，GUI-Rise的性能显著优于现有方法，验证了其框架的有效性和泛化能力。实验结果表明，结构化推理和历史总结机制能够有效提升GUI导航代理的性能。

🎯 应用场景

GUI-Rise具有广泛的应用前景，可用于自动化软件测试、用户界面自动化、辅助技术等领域。它可以帮助用户更高效地完成各种GUI导航任务，提高工作效率和用户体验。未来，该技术有望应用于更复杂的交互式系统中，例如虚拟助手和机器人。

📄 摘要（原文）

While Multimodal Large Language Models (MLLMs) have advanced GUI navigation agents, current approaches face limitations in cross-domain generalization and effective history utilization. We present a reasoning-enhanced framework that systematically integrates structured reasoning, action prediction, and history summarization. The structured reasoning component generates coherent Chain-of-Thought analyses combining progress estimation and decision reasoning, which inform both immediate action predictions and compact history summaries for future steps. Based on this framework, we train a GUI agent, \textbf{GUI-Rise}, through supervised fine-tuning on pseudo-labeled trajectories and reinforcement learning with Group Relative Policy Optimization (GRPO). This framework employs specialized rewards, including a history-aware objective, directly linking summary quality to subsequent action performance. Comprehensive evaluations on standard benchmarks demonstrate state-of-the-art results under identical training data conditions, with particularly strong performance in out-of-domain scenarios. These findings validate our framework's ability to maintain robust reasoning and generalization across diverse GUI navigation tasks. Code is available at https://leon022.github.io/GUI-Rise.

GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册