OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

📄 arXiv: 2606.02031v1 📥 PDF

作者: Rui Yang, Qianhui Wu, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao

分类: cs.LG, cs.AI, cs.CL, cs.CV

发布日期: 2026-06-01

备注: 36 pages, 11 figures


💡 一句话要点

OpenWebRL:探索视觉Web Agent在线多轮强化学习,刷新开源SOTA

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉Web Agent 在线强化学习 多轮强化学习 Web自动化 智能Agent

📋 核心要点

  1. 现有视觉Web Agent依赖大量人工标注数据进行监督学习,成本高昂且难以覆盖动态变化的Web环境。
  2. OpenWebRL提出一个完整的在线多轮强化学习框架,直接在真实网站上训练视觉Web Agent,无需大量人工标注。
  3. OpenWebRL-4B在Online-Mind2Web和DeepShop上分别达到67.0%和64.0%的成功率,超越现有开源Agent。

📝 摘要(中文)

构建强大的视觉Web Agent需要长程推理、精确的定位以及与动态真实网站的鲁棒交互。尽管取得了快速进展,但最强大的系统仍然是专有的,而开放Agent仍然严重依赖于对大量精选Web轨迹的监督后训练。这种依赖性造成了主要的可扩展性瓶颈:高质量的演示数据收集成本高昂,并且静态数据集对多样化、不断变化的开放Web的覆盖范围有限。虽然在线强化学习在基于文本的Agent中显示出前景,但其直接在实时网站上训练视觉Web Agent的潜力仍未得到充分探索。本文介绍了OpenWebRL,一个用于在真实网站上使用在线多轮强化学习训练视觉Web Agent的开放框架。OpenWebRL涵盖了完整的训练流程,包括可扩展的实时浏览器基础设施、监督初始化、多模态上下文管理、轨迹级成功判断和高效的多轮策略优化。使用此框架,我们训练了OpenWebRL-4B,它在具有挑战性的实时Web基准测试中建立了新的开源SOTA。仅使用0.4K初始化轨迹和2.2K开放式强化学习训练任务,OpenWebRL-4B在Online-Mind2Web上实现了67.0%的成功率,在DeepShop上实现了64.0%的成功率,优于先前类似或更大规模的开放Agent,并且与包括OpenAI CUA和Gemini CUA在内的专有系统保持竞争力。除了强大的基准性能外,我们还系统地研究了使在线强化学习对视觉Web Agent有效性的关键设计选择,并分析了强化学习如何提高Agent的推理能力。总的来说,我们的工作为构建更强大、可重现且具有成本效益的开放Web Agent提供了一条切实可行的途径。我们将发布我们的训练数据、模型和代码,以支持未来的研究。

🔬 方法详解

问题定义:论文旨在解决视觉Web Agent在动态变化的真实Web环境中进行有效训练的问题。现有方法主要依赖于大规模的监督学习,需要大量人工标注的轨迹数据,成本高昂且难以泛化到新的Web环境。此外,静态数据集无法捕捉Web环境的动态变化,导致Agent的鲁棒性较差。

核心思路:论文的核心思路是利用在线多轮强化学习,直接在真实Web环境中训练Agent。通过与真实Web环境的交互,Agent可以不断学习和适应Web环境的变化,从而提高其泛化能力和鲁棒性。此外,多轮强化学习可以更好地模拟真实Web交互的场景,使Agent能够学习到更复杂的策略。

技术框架:OpenWebRL框架包含以下主要模块:1) 可扩展的实时浏览器基础设施,用于与真实Web环境进行交互;2) 监督初始化,用于为Agent提供初步的知识;3) 多模态上下文管理,用于处理Web页面的视觉和文本信息;4) 轨迹级成功判断,用于评估Agent的性能;5) 高效的多轮策略优化,用于训练Agent的策略。整个流程从监督学习初始化开始,然后进入在线强化学习阶段,Agent与真实Web环境交互,收集经验,并使用强化学习算法更新策略。

关键创新:最重要的技术创新点在于将在线多轮强化学习应用于视觉Web Agent的训练。与传统的监督学习方法相比,在线强化学习可以更好地利用真实Web环境的信息,提高Agent的泛化能力和鲁棒性。此外,多轮强化学习可以更好地模拟真实Web交互的场景,使Agent能够学习到更复杂的策略。

关键设计:OpenWebRL的关键设计包括:1) 使用Transformer模型处理多模态上下文信息;2) 设计轨迹级奖励函数,用于评估Agent的性能;3) 使用PPO算法进行策略优化;4) 使用课程学习策略,逐步增加训练难度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OpenWebRL-4B在Online-Mind2Web和DeepShop两个具有挑战性的实时Web基准测试中取得了显著成果。在Online-Mind2Web上,OpenWebRL-4B的成功率为67.0%,在DeepShop上为64.0%。这些结果超越了先前开源Agent的性能,并与专有系统(如OpenAI CUA和Gemini CUA)的性能相当,证明了在线强化学习在视觉Web Agent训练中的有效性。

🎯 应用场景

该研究成果可应用于智能客服、自动化测试、网页信息提取等领域。通过训练能够自主与网页交互的智能体,可以大幅提升工作效率,降低人力成本。未来,该技术有望应用于更广泛的领域,例如智能家居控制、自动驾驶等。

📄 摘要(原文)

Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websites. Despite rapid progress, the strongest systems remain largely proprietary, while open agents still depend heavily on supervised post-training over large collections of curated web trajectories. This dependence creates a major scalability bottleneck: high-quality demonstrations are expensive to collect, and static datasets offer limited coverage of the diverse, ever-changing open web. Although online RL has shown promise for text-based agents, its potential for training visual web agents directly on live websites remains largely underexplored. In this paper, we introduce OpenWebRL, an open framework for training visual web agents with online multi-turn RL on real websites. OpenWebRL covers the full training pipeline, including scalable live-browser infrastructure, supervised initialization, multimodal context management, trajectory-level success judging, and efficient multi-turn policy optimization. Using this framework, we train OpenWebRL-4B, which establishes a new open-source state of the art on challenging live-web benchmarks. With only 0.4K initialization trajectories and 2.2K open-ended RL training tasks, OpenWebRL-4B achieves 67.0% success on Online-Mind2Web and 64.0% on DeepShop, outperforming prior open agents of similar or larger scale and remaining competitive with proprietary systems including OpenAI CUA and Gemini CUA. Beyond strong benchmark performance, we systematically study the key design choices that make online RL effective for visual web agents, and analyze how RL improves agentic reasoning. Overall, our work offers a practical path toward building more capable, reproducible, and cost-efficient open web agents. We will release our training data, models, and code to support future research.