WorkForceAgent-R1: Incentivizing Reasoning Capability in LLM-based Web Agents via Reinforcement Learning

📄 arXiv: 2505.22942v2 📥 PDF

作者: Yuchen Zhuang, Di Jin, Jiaao Chen, Wenqi Shi, Hanrui Wang, Chao Zhang

分类: cs.CL, cs.AI

发布日期: 2025-05-28 (更新: 2025-06-08)

备注: Work in Progress


💡 一句话要点

WorkForceAgent-R1:通过强化学习提升LLM网页Agent在企业环境中的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 强化学习 网页导航 企业应用 推理能力

📋 核心要点

  1. 现有基于监督微调的网页Agent在处理动态网页交互时,推理能力不足,泛化性和鲁棒性较差。
  2. WorkForceAgent-R1利用规则驱动的强化学习,通过结构化奖励函数,隐式学习鲁棒的中间推理,无需大量标注数据。
  3. 实验表明,WorkForceAgent-R1在WorkArena基准上显著优于SFT基线,性能接近专有LLM Agent。

📝 摘要(中文)

本文提出了WorkForceAgent-R1,一个基于大型语言模型(LLM)的网页Agent,它采用基于规则的R1风格强化学习框架进行训练,旨在增强面向业务的网页导航任务中的单步推理和规划能力。现有的基于监督微调(SFT)的网页Agent,由于在处理网页交互的动态性时推理能力不足,常常在泛化性和鲁棒性方面表现不佳。WorkForceAgent-R1采用结构化的奖励函数,评估输出格式的遵守情况和动作的正确性,使其能够在没有显式标注或大量专家演示的情况下隐式地学习鲁棒的中间推理。在WorkArena基准上的大量实验表明,WorkForceAgent-R1显著优于SFT基线10.26-16.59%,在面向工作场所的网页导航任务中,相对于专有的基于LLM的Agent(gpt-4o)也取得了具有竞争力的性能。

🔬 方法详解

问题定义:论文旨在解决现有基于监督微调的LLM网页Agent在企业级复杂网页导航任务中泛化性和鲁棒性不足的问题。这些Agent在面对动态变化的网页环境时,由于缺乏足够的推理能力,难以做出正确的决策。现有方法依赖大量标注数据或专家演示,成本高昂且难以覆盖所有场景。

核心思路:论文的核心思路是利用强化学习,通过设计合适的奖励函数,引导LLM Agent学习在网页导航任务中的推理和规划能力。通过奖励Agent的正确行为和惩罚错误行为,使其能够自主探索并学习到最优策略,从而提高其在复杂网页环境中的适应性和决策能力。这种方法避免了对大量标注数据的依赖,降低了训练成本。

技术框架:WorkForceAgent-R1的技术框架主要包括以下几个部分:首先,LLM作为Agent的核心,负责接收环境信息(网页内容),并输出下一步的动作。其次,环境模拟器模拟真实的网页环境,Agent在其中进行交互。然后,奖励函数根据Agent的动作和环境反馈,计算奖励值。最后,强化学习算法(例如,R1-style强化学习)利用奖励值更新Agent的策略,使其能够更好地完成任务。

关键创新:该论文的关键创新在于使用了一种基于规则的R1-style强化学习框架,并设计了一个结构化的奖励函数。该奖励函数不仅考虑了Agent输出格式的正确性,还考虑了Agent执行动作的正确性。这种设计使得Agent能够在没有显式标注的情况下,学习到鲁棒的中间推理过程。与传统的强化学习方法相比,该方法更加关注Agent的推理过程,而不仅仅是最终的结果。

关键设计:奖励函数的设计是关键。它由两部分组成:一部分是关于输出格式的奖励,确保Agent的输出符合预期的格式要求;另一部分是关于动作正确性的奖励,根据Agent的动作是否导致任务目标的达成来给予奖励或惩罚。具体参数设置未知,但强调了奖励函数对Agent学习的重要性。

🖼️ 关键图片

img_0

📊 实验亮点

WorkForceAgent-R1在WorkArena基准测试中表现出色,相较于SFT基线,性能提升了10.26%-16.59%。此外,其性能与专有的LLM Agent(gpt-4o)相比也具有竞争力,表明该方法在实际应用中具有很高的潜力。这些结果证明了通过强化学习提升LLM网页Agent推理能力的有效性。

🎯 应用场景

WorkForceAgent-R1具有广泛的应用前景,例如自动化客户服务、企业内部流程自动化、在线购物助手等。它可以帮助企业提高效率,降低成本,并改善用户体验。未来,该技术可以进一步扩展到更复杂的任务,例如跨平台数据集成、智能决策支持等,为企业数字化转型提供更强大的支持。

📄 摘要(原文)

Large language models (LLMs)-empowered web agents enables automating complex, real-time web navigation tasks in enterprise environments. However, existing web agents relying on supervised fine-tuning (SFT) often struggle with generalization and robustness due to insufficient reasoning capabilities when handling the inherently dynamic nature of web interactions. In this study, we introduce WorkForceAgent-R1, an LLM-based web agent trained using a rule-based R1-style reinforcement learning framework designed explicitly to enhance single-step reasoning and planning for business-oriented web navigation tasks. We employ a structured reward function that evaluates both adherence to output formats and correctness of actions, enabling WorkForceAgent-R1 to implicitly learn robust intermediate reasoning without explicit annotations or extensive expert demonstrations. Extensive experiments on the WorkArena benchmark demonstrate that WorkForceAgent-R1 substantially outperforms SFT baselines by 10.26-16.59%, achieving competitive performance relative to proprietary LLM-based agents (gpt-4o) in workplace-oriented web navigation tasks.