WEBSERV: A Browser-Server Environment for Efficient Training of Reinforcement Learning-based Web Agents at Scale

📄 arXiv: 2510.16252v1 📥 PDF

作者: Yuxuan Lu, Jing Huang, Hui Liu, Jiri Gesi, Yan Han, Shihan Fu, Tianqi Zheng, Dakuo Wang

分类: cs.LG, cs.CL

发布日期: 2025-10-17


💡 一句话要点

提出WEBSERV以解决大规模强化学习网页代理训练效率问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 网页代理 训练环境 并行计算 服务器管理 性能优化 WebArena 高效训练

📋 核心要点

  1. 现有的强化学习网页代理训练环境存在上下文过多、动作执行不稳定以及扩展性差等问题。
  2. WEBSERV通过设计一个紧凑的浏览器环境和高效的服务器管理,解决了上述问题,提升了训练效率。
  3. 在WebArena的实验中,WEBSERV实现了显著的性能提升,成功率和资源使用效率均优于现有方法。

📝 摘要(中文)

强化学习(RL)网页代理的训练与评估日益受到关注,但缺乏一个能够在大规模下有效结合真实且稳健的浏览器端交互与可控的服务器端状态的环境。现有环境通常存在以下问题:过多且嘈杂的上下文使得策略模型难以处理;在UI或网络未稳定时非确定性地执行动作;无法有效扩展孤立的客户端-服务器容器以进行并行RL回滚。为此,本文提出了WEBSERV环境,包含1)一个紧凑的、与网站无关的浏览器环境,平衡上下文与动作复杂性;2)通过高效启动和重置网络服务器实现可扩展的RL环境,以支持大规模RL训练与评估。我们在WebArena的购物CMS和Gitlab任务上评估WEBSERV,取得了最先进的单提示成功率,同时将启动延迟降低约5倍,存储需求减少约240倍,且内存占用相当,支持在单个主机上运行200多个并发容器。

🔬 方法详解

问题定义:本文旨在解决现有强化学习网页代理训练环境在上下文复杂性、动作执行稳定性和扩展性方面的不足。现有方法往往导致策略模型难以有效学习,且无法支持大规模并行训练。

核心思路:WEBSERV的核心思路是构建一个紧凑且与网站无关的浏览器环境,结合高效的服务器管理,以平衡上下文与动作的复杂性,从而提升训练效率和可扩展性。

技术框架:WEBSERV的整体架构包括两个主要模块:1)浏览器环境模块,负责提供稳定的用户界面交互;2)服务器管理模块,负责高效地启动和重置服务器,以支持并行的RL训练。

关键创新:WEBSERV的关键创新在于其能够在单个主机上支持200多个并发容器,同时显著降低启动延迟和存储需求。这一设计使得RL训练更加高效且可扩展。

关键设计:在设计中,WEBSERV采用了优化的参数设置和资源管理策略,确保在高并发情况下仍能保持较低的内存占用和快速的响应时间。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

在WebArena的实验中,WEBSERV在购物CMS和Gitlab任务上实现了最先进的单提示成功率,同时将启动延迟降低约5倍,存储需求减少约240倍,显示出其在资源利用和训练效率上的显著优势。

🎯 应用场景

WEBSERV的研究成果具有广泛的应用潜力,尤其在需要大规模并行训练的强化学习任务中,如自动化测试、智能推荐系统和在线广告优化等领域。其高效的训练环境能够显著提升模型的学习效率,推动相关技术的发展与应用。

📄 摘要(原文)

Training and evaluation of Reinforcement Learning (RL) web agents have gained increasing attention, yet a scalable and efficient environment that couples realistic and robust browser-side interaction with controllable server-side state at scale is still missing. Existing environments tend to have one or more of the following issues: they overwhelm policy models with excessive and noisy context; they perform actions non-deterministically without waiting for the UI or network to stabilize; or they cannot scale isolated client-server containers effectively for parallel RL rollouts. We propose WEBSERV, an environment that includes 1) a compact, site-agnostic browser environment that balances context and action complexity, and 2) a scalable RL environment via efficient launching and resetting web-servers to enable scalable RL training and evaluation. We evaluate WEBSERV on the shopping CMS and Gitlab tasks in WebArena, achieving state-of-the-art single-prompt success rates while cutting launch latency by ~5x and storage need by ~240x, with a comparable memory footprint, enabling 200+ concurrent containers on a single host.