UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

作者: Zichuan Lin, Feiyu Liu, Yijun Yang, Jiafei Lyu, Yiming Gao, Yicheng Liu, Zhicong Lu, Yangbin Yu, Mingyu Yang, Junyou Li, Deheng Ye, Jie Jiang

分类: cs.LG, cs.AI, cs.CV

发布日期: 2026-03-25

备注: Code and models are available at https://github.com/ui-voyager/UI-Voyager

💡 一句话要点

UI-Voyager：提出一种基于失败经验自进化的GUI智能体，提升移动GUI自动化性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI自动化 多模态大语言模型 拒绝微调 自蒸馏 移动应用 强化学习 自进化智能体

📋 核心要点

现有移动GUI智能体方法在从失败经验中学习效率低，且长程任务中信用分配模糊。
UI-Voyager通过拒绝微调（RFT）实现数据和模型的协同进化，并使用组相对自蒸馏（GRSD）纠正失败轨迹。
实验表明，UI-Voyager的4B模型在AndroidWorld上Pass@1成功率达到81.0%，超越现有基线和人类水平。

📝 摘要（中文）

随着多模态大型语言模型（MLLM）的进步，自主移动GUI智能体受到了越来越多的关注。然而，现有方法在从失败轨迹中高效学习以及在稀疏奖励下对长程GUI任务进行明确的信用分配方面仍然存在不足。为此，我们提出了UI-Voyager，一种新颖的两阶段自进化移动GUI智能体。在第一阶段，我们采用拒绝微调（RFT），这使得数据和模型能够在完全自主的循环中持续协同进化。第二阶段引入了组相对自蒸馏（GRSD），它识别组rollout中的关键分叉点，并从成功的轨迹构建密集的步级监督，以纠正失败的轨迹。在AndroidWorld上的大量实验表明，我们的4B模型实现了81.0%的Pass@1成功率，优于许多最新的基线，并超过了人类水平的性能。消融研究和案例研究进一步验证了GRSD的有效性。我们的方法代表着在无需昂贵的人工数据标注的情况下，朝着高效、自进化和高性能的移动GUI自动化迈出了一大步。

🔬 方法详解

问题定义：现有自主移动GUI智能体在长程任务中面临两大挑战。一是难以从失败的轨迹中高效学习，导致训练效率低下。二是由于奖励稀疏，难以准确地将功劳分配给正确的动作，尤其是在任务链较长的情况下。这使得智能体难以区分哪些动作是导致成功的关键，哪些是导致失败的原因。

核心思路：UI-Voyager的核心思路是通过一个两阶段的自进化框架来解决上述问题。第一阶段利用拒绝微调（RFT）让模型自主探索并从探索中产生的成功和失败经验中学习。第二阶段利用组相对自蒸馏（GRSD）从成功的轨迹中提取知识，并将其传递给失败的轨迹，从而实现更有效的学习。这种设计旨在提高学习效率和信用分配的准确性。

技术框架：UI-Voyager的整体框架包含两个主要阶段：1) 拒绝微调（RFT）阶段：智能体在环境中自主探索，生成轨迹数据。然后，根据轨迹的成功与否，对模型进行微调。RFT通过迭代地生成数据和更新模型，实现数据和模型的协同进化。2) 组相对自蒸馏（GRSD）阶段：智能体进行多次rollout，形成一个组。GRSD识别组中轨迹的关键分叉点，并利用成功的轨迹作为教师信号，指导失败轨迹的学习。

关键创新：UI-Voyager的关键创新在于组相对自蒸馏（GRSD）方法。与传统的自蒸馏方法不同，GRSD不是直接模仿成功的轨迹，而是关注轨迹之间的相对关系。它通过识别关键分叉点，并利用成功轨迹在该分叉点之后的行为作为监督信号，来纠正失败轨迹的行为。这种方法能够更有效地利用成功的经验，并避免了简单模仿可能导致的次优解。

关键设计：在RFT阶段，关键在于如何平衡探索和利用。论文中可能使用了某种探索策略（如ε-greedy或UCB）来鼓励智能体尝试不同的动作。在GRSD阶段，关键在于如何识别关键分叉点。论文可能使用某种指标（如状态相似度或动作差异）来衡量轨迹之间的相似性，并选择差异最大的点作为分叉点。损失函数的设计也至关重要，它需要能够有效地将成功轨迹的知识传递给失败轨迹。具体的损失函数形式未知，但可能包含模仿学习和对比学习的成分。

🖼️ 关键图片

📊 实验亮点

UI-Voyager在AndroidWorld数据集上取得了显著的性能提升。其4B模型实现了81.0%的Pass@1成功率，超越了现有的基线方法，甚至超过了人类水平。消融实验表明，组相对自蒸馏（GRSD）是提升性能的关键因素。案例研究进一步验证了GRSD能够有效地纠正失败轨迹，并提高智能体的学习效率。

🎯 应用场景

UI-Voyager具有广泛的应用前景，可用于自动化软件测试、移动应用助手、以及各种需要与图形用户界面交互的自动化任务。该研究的实际价值在于降低了GUI自动化的开发成本，提高了自动化任务的效率和可靠性。未来，该技术有望应用于更复杂的GUI环境，并与其他AI技术相结合，实现更智能化的用户交互。

📄 摘要（原文）

Autonomous mobile GUI agents have attracted increasing attention along with the advancement of Multimodal Large Language Models (MLLMs). However, existing methods still suffer from inefficient learning from failed trajectories and ambiguous credit assignment under sparse rewards for long-horizon GUI tasks. To that end, we propose UI-Voyager, a novel two-stage self-evolving mobile GUI agent. In the first stage, we employ Rejection Fine-Tuning (RFT), which enables the continuous co-evolution of data and models in a fully autonomous loop. The second stage introduces Group Relative Self-Distillation (GRSD), which identifies critical fork points in group rollouts and constructs dense step-level supervision from successful trajectories to correct failed ones. Extensive experiments on AndroidWorld show that our 4B model achieves an 81.0% Pass@1 success rate, outperforming numerous recent baselines and exceeding human-level performance. Ablation and case studies further verify the effectiveness of GRSD. Our method represents a significant leap toward efficient, self-evolving, and high-performance mobile GUI automation without expensive manual data annotation.

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理