GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation

作者: Tao Liu, Chongyu Wang, Rongjie Li, Yingchen Yu, Xuming He, Bai Song

分类: cs.AI, cs.CV

发布日期: 2025-10-31

备注: Published in NeurIPS 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

GUI-Rise：提出一种融合结构化推理和历史总结的GUI导航框架，提升跨领域泛化能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI导航 多模态大语言模型 结构化推理 历史总结 强化学习 Chain-of-Thought 跨领域泛化

📋 核心要点

现有GUI导航代理在跨领域泛化能力和历史信息有效利用方面存在不足，限制了其应用范围。
GUI-Rise框架通过结构化推理生成Chain-of-Thought分析，指导动作预测和历史总结，提升决策质量。
实验表明，GUI-Rise在标准基准上取得了最先进的结果，尤其在领域外场景中表现出强大的泛化能力。

📝 摘要（中文）

多模态大型语言模型(MLLMs)在GUI导航代理方面取得了进展，但现有方法在跨领域泛化和有效利用历史信息方面存在局限性。本文提出了一种推理增强框架，系统地整合了结构化推理、动作预测和历史总结。结构化推理组件生成连贯的Chain-of-Thought分析，结合了进度估计和决策推理，为即时动作预测和未来步骤的紧凑历史总结提供信息。基于此框架，我们通过在伪标签轨迹上进行监督微调和使用群体相对策略优化(GRPO)进行强化学习，训练了一个GUI代理，名为GUI-Rise。该框架采用了专门的奖励，包括一个历史感知目标，直接将总结质量与后续动作表现联系起来。在标准基准上的全面评估表明，在相同的训练数据条件下，GUI-Rise取得了最先进的结果，尤其是在领域外场景中表现出色。这些发现验证了我们的框架在各种GUI导航任务中保持鲁棒推理和泛化的能力。

🔬 方法详解

问题定义：现有基于多模态大型语言模型（MLLMs）的GUI导航代理，在面对不同领域的GUI界面时，泛化能力不足。同时，如何有效地利用历史导航信息，辅助当前决策，也是一个挑战。现有方法难以在复杂GUI环境中进行有效的推理和决策，导致导航效率和成功率较低。

核心思路：GUI-Rise的核心思路是通过引入结构化推理和历史总结机制，增强代理的决策能力和泛化能力。结构化推理模拟人类的思考过程，对导航任务进行分解和分析，从而做出更合理的决策。历史总结则将之前的导航经验压缩成简洁的摘要，供后续步骤参考，避免重复探索和错误决策。

技术框架：GUI-Rise框架主要包含三个核心组件：结构化推理、动作预测和历史总结。首先，结构化推理模块生成Chain-of-Thought分析，包括进度估计和决策推理。然后，动作预测模块基于推理结果，预测下一步要执行的动作。最后，历史总结模块将之前的导航轨迹压缩成简洁的摘要，用于指导后续的推理和决策。整个框架通过监督微调和强化学习进行训练。

关键创新：GUI-Rise的关键创新在于将结构化推理和历史总结有机地结合在一起。结构化推理不仅用于指导动作预测，还用于生成历史总结，从而保证了历史信息的质量和相关性。同时，框架引入了历史感知奖励，直接将总结质量与后续动作表现联系起来，鼓励代理学习更有效的历史总结策略。

关键设计：GUI-Rise使用Chain-of-Thought进行结构化推理，将复杂的导航任务分解为一系列简单的步骤。历史总结模块采用Transformer模型，将历史导航轨迹压缩成固定长度的向量表示。在强化学习阶段，使用Group Relative Policy Optimization (GRPO)算法，提高训练的稳定性和效率。此外，还设计了专门的奖励函数，包括成功奖励、惩罚奖励和历史感知奖励，引导代理学习最优的导航策略。

🖼️ 关键图片

📊 实验亮点

GUI-Rise在标准GUI导航基准测试中取得了最先进的结果，尤其是在领域外场景中表现出色。在相同的训练数据条件下，GUI-Rise的性能显著优于现有方法，验证了其在跨领域泛化方面的优势。此外，实验还表明，历史总结模块能够有效地提升导航效率和成功率。

🎯 应用场景

GUI-Rise框架可应用于各种需要人机交互的场景，例如自动化测试、智能助手、无障碍辅助等。通过提升GUI导航代理的智能化水平，可以提高工作效率，降低人工成本，并为残障人士提供更好的用户体验。未来，该技术有望应用于更复杂的交互式系统中，实现更智能、更自然的交互方式。

📄 摘要（原文）

While Multimodal Large Language Models (MLLMs) have advanced GUI navigation agents, current approaches face limitations in cross-domain generalization and effective history utilization. We present a reasoning-enhanced framework that systematically integrates structured reasoning, action prediction, and history summarization. The structured reasoning component generates coherent Chain-of-Thought analyses combining progress estimation and decision reasoning, which inform both immediate action predictions and compact history summaries for future steps. Based on this framework, we train a GUI agent, \textbf{GUI-Rise}, through supervised fine-tuning on pseudo-labeled trajectories and reinforcement learning with Group Relative Policy Optimization (GRPO). This framework employs specialized rewards, including a history-aware objective, directly linking summary quality to subsequent action performance. Comprehensive evaluations on standard benchmarks demonstrate state-of-the-art results under identical training data conditions, with particularly strong performance in out-of-domain scenarios. These findings validate our framework's ability to maintain robust reasoning and generalization across diverse GUI navigation tasks. Code is available at https://leon022.github.io/GUI-Rise.

GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理