UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
作者: Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Aoyan Li, Bo Li, Chen Dun, Chong Liu, Daoguang Zan, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Shulin Xin, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qi Liu, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Yaohui Wang, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Qihua Han, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi
分类: cs.AI, cs.CL, cs.CV, cs.HC
发布日期: 2025-09-02 (更新: 2025-09-05)
💡 一句话要点
UI-TARS-2:通过多轮强化学习提升GUI智能体性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: GUI智能体 强化学习 多轮交互 数据飞轮 混合GUI环境
📋 核心要点
- 现有GUI智能体模型在数据可扩展性、多轮强化学习、仅GUI操作的局限性以及环境稳定性方面存在挑战。
- UI-TARS-2通过数据飞轮、稳定多轮强化学习框架、混合GUI环境和统一沙盒平台来解决上述挑战。
- UI-TARS-2在GUI和游戏基准测试中均取得了显著提升,并能泛化到长时程信息搜索和软件工程任务。
📝 摘要(中文)
本文介绍了UI-TARS-2,一种以原生GUI为中心的智能体模型,旨在解决GUI智能体开发中的挑战。该模型通过系统性的训练方法,包括可扩展数据生成的数据飞轮、稳定的多轮强化学习框架、集成文件系统和终端的混合GUI环境,以及用于大规模rollout的统一沙盒平台,来应对数据可扩展性、多轮强化学习、GUI操作局限性和环境稳定性等问题。实验结果表明,UI-TARS-2在GUI基准测试中显著优于其前身UI-TARS-1.5,并在游戏环境中达到接近人类水平的性能。此外,该模型还能泛化到长时程信息搜索任务和软件工程基准测试,展示了其在各种智能体任务中的鲁棒性。对训练动态的详细分析进一步揭示了在大规模智能体强化学习中实现稳定性和效率的方法。这些结果突显了UI-TARS-2在推进GUI智能体发展方面的潜力,并展示了其在真实世界交互场景中的强大泛化能力。
🔬 方法详解
问题定义:现有GUI智能体面临数据规模不足、多轮交互不稳定、仅依赖GUI操作以及环境不够真实等问题。这些问题限制了智能体在复杂任务中的表现和泛化能力。
核心思路:UI-TARS-2的核心思路是通过系统性的训练方法,构建一个更强大、更稳定的GUI智能体。具体来说,通过数据飞轮解决数据规模问题,通过稳定的多轮强化学习框架解决交互不稳定问题,通过混合GUI环境扩展操作范围,并通过统一沙盒平台提高训练效率。
技术框架:UI-TARS-2的整体框架包含以下几个主要模块:1) 数据飞轮:用于生成大规模训练数据;2) 多轮强化学习框架:用于训练智能体的交互能力;3) 混合GUI环境:集成文件系统和终端,提供更丰富的操作环境;4) 统一沙盒平台:用于大规模rollout和评估。智能体通过观察GUI界面,执行操作,并根据环境反馈进行学习。
关键创新:UI-TARS-2的关键创新在于其系统性的训练方法,将数据生成、强化学习、环境构建和评估整合到一个统一的框架中。这种方法能够更有效地训练智能体,并提高其在复杂任务中的表现。与现有方法相比,UI-TARS-2更加注重数据的可扩展性、训练的稳定性以及环境的真实性。
关键设计:数据飞轮通过自动化脚本和人工标注相结合的方式生成数据。多轮强化学习框架采用了一种新的奖励函数和探索策略,以提高训练的稳定性和效率。混合GUI环境通过模拟真实的用户操作,提供更丰富的交互体验。统一沙盒平台采用分布式架构,支持大规模的rollout和评估。具体的参数设置、损失函数和网络结构等细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
UI-TARS-2在Online-Mind2Web上达到88.2,在OSWorld上达到47.5,在WindowsAgentArena上达到50.6,在AndroidWorld上达到73.3,超越了Claude和OpenAI等强大基线模型。在游戏环境中,它在15个游戏的平均归一化得分达到59.8,接近人类水平的60%,并在LMGame-Bench上与OpenAI o3等前沿专有模型保持竞争力。
🎯 应用场景
UI-TARS-2具有广泛的应用前景,可用于自动化测试、智能助手、软件开发辅助等领域。例如,它可以自动执行重复性的GUI操作,帮助用户提高工作效率;也可以作为智能助手的核心组件,提供更智能、更便捷的服务。此外,UI-TARS-2还可以用于软件开发过程中的自动化测试,提高软件质量。
📄 摘要(原文)
The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent model that addresses these challenges through a systematic training methodology: a data flywheel for scalable data generation, a stabilized multi-turn RL framework, a hybrid GUI environment that integrates file systems and terminals, and a unified sandbox platform for large-scale rollouts. Empirical evaluation demonstrates that UI-TARS-2 achieves significant improvements over its predecessor UI-TARS-1.5. On GUI benchmarks, it reaches 88.2 on Online-Mind2Web, 47.5 on OSWorld, 50.6 on WindowsAgentArena, and 73.3 on AndroidWorld, outperforming strong baselines such as Claude and OpenAI agents. In game environments, it attains a mean normalized score of 59.8 across a 15-game suite-roughly 60% of human-level performance-and remains competitive with frontier proprietary models (e.g., OpenAI o3) on LMGame-Bench. Additionally, the model can generalize to long-horizon information-seeking tasks and software engineering benchmarks, highlighting its robustness across diverse agent tasks. Detailed analyses of training dynamics further provide insights into achieving stability and efficiency in large-scale agent RL. These results underscore UI-TARS-2's potential to advance the state of GUI agents and exhibit strong generalization to real-world interactive scenarios.