UI-Venus Technical Report: Building High-performance UI Agents with RFT

📄 arXiv: 2508.10833v2 📥 PDF

作者: Zhangxuan Gu, Zhengwen Zeng, Zhenyu Xu, Xingran Zhou, Shuheng Shen, Yunfei Liu, Beitong Zhou, Changhua Meng, Tianyu Xia, Weizhi Chen, Yue Wen, Jingya Dou, Fei Tang, Jinzhen Lin, Yulin Liu, Zhenlin Guo, Yichen Gong, Heng Jia, Changlong Gao, Yuan Guo, Yong Deng, Zhenyu Guo, Liang Chen, Weiqiang Wang

分类: cs.CV

发布日期: 2025-08-14 (更新: 2025-08-15)

🔗 代码/项目: GITHUB


💡 一句话要点

UI-Venus:基于RFT构建高性能UI代理,实现UI理解与导航任务的SOTA性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: UI代理 强化学习 多模态学习 UI理解 UI导航 自进化学习 轨迹对齐

📋 核心要点

  1. 现有UI代理在UI理解和导航任务中面临数据质量和模型泛化性挑战,限制了其性能。
  2. UI-Venus通过强化微调(RFT)和自进化轨迹历史对齐等技术,提升模型在复杂UI任务中的规划和泛化能力。
  3. UI-Venus在Screenspot和AndroidWorld等基准测试中超越现有SOTA模型,验证了其在UI理解和导航方面的卓越性能。

📝 摘要(中文)

UI-Venus是一个原生的UI代理,仅以截图作为输入,基于多模态大型语言模型构建。通过基于Qwen2.5-VL的强化微调(RFT),仅使用数十万高质量训练样本,UI-Venus在UI理解和导航任务上均实现了SOTA性能。具体而言,UI-Venus的7B和72B变体在标准理解基准Screenspot-V2/Pro上分别获得了94.1%/50.8%和95.3%/61.9%的性能,超过了之前的SOTA基线,包括开源的GTA1和闭源的UI-TARS-1.5。为了展示UI-Venus的总结和规划能力,我们还在在线UI导航平台AndroidWorld上对其进行了评估,我们的7B和72B变体分别实现了49.1%和65.9%的成功率,也优于现有模型。为了实现这一目标,我们为UI理解和导航任务精心设计了奖励函数,并制定了相应的高效数据清洗策略。为了进一步提高导航性能,我们提出了自进化轨迹历史对齐与稀疏动作增强,从而优化历史推理轨迹并平衡稀疏但关键动作的分布,从而在复杂的UI任务中实现更连贯的规划和更好的泛化。我们的贡献包括发布SOTA开源UI代理、全面的数据清洗协议以及一种用于提高导航性能的新型自进化框架,从而鼓励社区进一步研究和开发。

🔬 方法详解

问题定义:现有UI代理在处理复杂UI界面时,面临着数据质量不高、模型泛化能力不足的问题。尤其是在UI导航任务中,稀疏的关键动作难以有效学习,导致规划能力受限。此外,历史推理轨迹中的噪声也会影响模型的决策。

核心思路:UI-Venus的核心思路是利用强化微调(RFT)方法,结合精心设计的奖励函数和数据清洗策略,训练一个高性能的UI代理。通过自进化轨迹历史对齐与稀疏动作增强,优化历史推理轨迹,平衡稀疏动作的分布,从而提升模型的规划和泛化能力。

技术框架:UI-Venus的整体框架包括以下几个主要阶段:1) 数据收集与清洗:收集高质量的UI交互数据,并进行清洗,去除噪声数据。2) 奖励函数设计:为UI理解和导航任务设计合适的奖励函数,引导模型学习正确的行为。3) 强化微调(RFT):使用RFT方法,基于Qwen2.5-VL对模型进行微调。4) 自进化轨迹历史对齐:对历史推理轨迹进行对齐,减少噪声干扰。5) 稀疏动作增强:增加稀疏关键动作的训练样本,平衡动作分布。

关键创新:UI-Venus的关键创新在于:1) 提出了自进化轨迹历史对齐方法,能够有效减少历史推理轨迹中的噪声,提升模型的决策准确性。2) 引入了稀疏动作增强策略,平衡了稀疏关键动作的分布,使得模型能够更好地学习这些关键动作,提升导航性能。3) 通过精心设计的奖励函数和数据清洗策略,保证了训练数据的质量,提升了模型的性能。

关键设计:在奖励函数设计方面,针对UI理解任务,采用了基于准确率的奖励函数;针对UI导航任务,采用了基于成功率和步数的奖励函数。在自进化轨迹历史对齐方面,采用了动态时间规整(DTW)算法对轨迹进行对齐。在稀疏动作增强方面,采用了数据增强技术,增加稀疏动作的训练样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UI-Venus在Screenspot-V2/Pro上分别取得了94.1%/50.8% (7B) 和 95.3%/61.9% (72B) 的SOTA性能,显著超越了GTA1和UI-TARS-1.5等现有模型。在AndroidWorld上,UI-Venus的7B和72B变体分别实现了49.1%和65.9%的成功率,也优于现有模型,证明了其在复杂UI导航任务中的有效性。

🎯 应用场景

UI-Venus可应用于自动化测试、智能助手、无障碍设计等领域。例如,它可以自动执行UI测试用例,辅助用户完成复杂的UI操作,为残障人士提供更便捷的UI交互方式。未来,UI-Venus有望成为各种智能设备和应用的重要组成部分,提升用户体验。

📄 摘要(原文)

We present UI-Venus, a native UI agent that takes only screenshots as input based on a multimodal large language model. UI-Venus achieves SOTA performance on both UI grounding and navigation tasks using only several hundred thousand high-quality training samples through reinforcement finetune (RFT) based on Qwen2.5-VL. Specifically, the 7B and 72B variants of UI-Venus obtain 94.1% / 50.8% and 95.3% / 61.9% on the standard grounding benchmarks, i.e., Screenspot-V2 / Pro, surpassing the previous SOTA baselines including open-source GTA1 and closed-source UI-TARS-1.5. To show UI-Venus's summary and planing ability, we also evaluate it on the AndroidWorld, an online UI navigation arena, on which our 7B and 72B variants achieve 49.1% and 65.9% success rate, also beating existing models. To achieve this, we introduce carefully designed reward functions for both UI grounding and navigation tasks and corresponding efficient data cleaning strategies. To further boost navigation performance, we propose Self-Evolving Trajectory History Alignment & Sparse Action Enhancement that refine historical reasoning traces and balances the distribution of sparse but critical actions, leading to more coherent planning and better generalization in complex UI tasks. Our contributions include the publish of SOTA open-source UI agents, comprehensive data cleaning protocols and a novel self-evolving framework for improving navigation performance, which encourage further research and development in the community. Code is available at https://github.com/inclusionAI/UI-Venus.