WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model
作者: Tianqing Fang, Hongming Zhang, Zhisong Zhang, Kaixin Ma, Wenhao Yu, Haitao Mi, Dong Yu
分类: cs.CL
发布日期: 2025-04-23 (更新: 2025-08-21)
备注: EMNLP 2025 Main Conference
🔗 代码/项目: GITHUB
💡 一句话要点
WebEvolver:通过共进化世界模型增强Web Agent的自我改进能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web Agent 自我改进 世界模型 大型语言模型 自主学习
📋 核心要点
- 现有Web Agent的自我改进方法在自主学习中会遇到性能停滞,原因是Web环境探索不足和预训练知识利用不充分。
- WebEvolver引入共进化世界模型,利用LLM的Web知识,既生成训练数据改进Agent策略,又作为想象引擎指导动作选择。
- 在Mind2Web-Live等真实Web环境的实验表明,WebEvolver相比现有自进化Agent性能提升10%,验证了其有效性和泛化性。
📝 摘要(中文)
Agent自我改进,即基于自身策略自主采样轨迹来训练Agent的大型语言模型(LLM),已成为提高性能的一种有前景的方法。最近在Web环境中的进展面临一个关键限制:在自主学习周期中,性能会达到停滞点,阻碍进一步改进。我们认为这源于对Web环境的有限探索以及LLM中预训练Web知识的利用不足。为了提高自我改进的性能,我们提出了一个新颖的框架,引入了一个共进化的世界模型LLM。该世界模型基于Web环境中的当前观察和动作来预测下一个观察。利用LLM预训练的丰富Web内容知识,世界模型具有双重作用:(1)作为虚拟Web服务器,生成自指导训练数据,以不断改进Agent的策略;(2)作为推理过程中的想象引擎,实现前瞻模拟,以指导Agent LLM的动作选择。在真实Web环境(Mind2Web-Live、WebVoyager和GAIA-web)中的实验表明,与现有的自进化Agent相比,性能提高了10%,证明了我们方法的有效性和泛化性,而没有使用来自更强大的闭源模型的任何知识蒸馏。我们的工作确立了将世界模型集成到自主Agent框架中以释放持续适应性的必要性。
🔬 方法详解
问题定义:现有Web Agent的自我改进方法,在经过一段时间的自主学习后,性能会达到瓶颈,难以进一步提升。主要痛点在于Agent对Web环境的探索不够充分,无法有效利用LLM中预训练的Web知识,导致策略优化受限。
核心思路:WebEvolver的核心思路是引入一个与Agent共同进化的世界模型。该世界模型通过预测Agent在Web环境中的下一步观察,来模拟真实Web环境,并生成高质量的训练数据,从而持续改进Agent的策略。同时,世界模型还可以在推理阶段作为Agent的“想象引擎”,帮助Agent进行前瞻性模拟,选择更优的动作。
技术框架:WebEvolver框架包含两个主要的LLM:Agent LLM和World Model LLM。Agent LLM负责执行Web任务,并根据环境反馈进行策略学习。World Model LLM则负责预测Agent的下一步观察,并生成训练数据。这两个LLM共同进化,相互促进。具体流程如下:1) Agent LLM执行动作并观察环境;2) World Model LLM基于当前观察和动作预测下一步观察;3) 使用World Model LLM生成的虚拟数据训练Agent LLM;4) Agent LLM在真实Web环境中执行任务,并收集真实数据;5) 使用真实数据训练World Model LLM。
关键创新:WebEvolver的关键创新在于引入了共进化的世界模型,并将其应用于Web Agent的自我改进。与传统的自我改进方法相比,WebEvolver能够更有效地探索Web环境,并利用LLM中预训练的Web知识。此外,世界模型还可以在推理阶段作为Agent的“想象引擎”,帮助Agent进行更明智的决策。
关键设计:World Model LLM使用Transformer架构,并采用因果语言建模目标进行训练,即预测给定当前观察和动作序列的下一个观察。损失函数采用交叉熵损失。Agent LLM也采用类似的架构,并使用强化学习算法(如PPO)进行训练。在推理阶段,Agent LLM使用World Model LLM进行前瞻性模拟,选择能够最大化预期回报的动作。
🖼️ 关键图片
📊 实验亮点
实验结果表明,WebEvolver在Mind2Web-Live、WebVoyager和GAIA-web等真实Web环境中,相比现有的自进化Agent,性能平均提升了10%。这一显著的性能提升证明了WebEvolver框架的有效性和泛化性。值得注意的是,WebEvolver在提升性能的同时,没有使用任何来自更强大的闭源模型的知识蒸馏,表明其具有很强的独立学习能力。
🎯 应用场景
WebEvolver具有广泛的应用前景,可以应用于各种需要自主探索和学习的Web任务,例如智能客服、自动化测试、信息检索等。通过不断地自我改进,Web Agent可以更好地适应不断变化的Web环境,并完成更复杂的任务。该研究的实际价值在于提升Web Agent的智能化水平和自动化能力,未来可能推动Web应用开发和用户体验的革新。
📄 摘要(原文)
Agent self-improvement, where the backbone Large Language Model (LLM) of the agent are trained on trajectories sampled autonomously based on their own policies, has emerged as a promising approach for enhancing performance. Recent advancements, particularly in web environments, face a critical limitation: their performance will reach a stagnation point during autonomous learning cycles, hindering further improvement. We argue that this stems from limited exploration of the web environment and insufficient exploitation of pre-trained web knowledge in LLMs. To improve the performance of self-improvement, we propose a novel framework that introduces a co-evolving World Model LLM. This world model predicts the next observation based on the current observation and action within the web environment. Leveraging LLMs' pretrained knowledge of abundant web content, the World Model serves dual roles: (1) as a virtual web server generating self-instructed training data to continuously refine the agent's policy, and (2) as an imagination engine during inference, enabling look-ahead simulation to guide action selection for the agent LLM. Experiments in real-world web environments (Mind2Web-Live, WebVoyager, and GAIA-web) show a 10% performance gain over existing self-evolving agents, demonstrating the efficacy and generalizability of our approach, without using any distillation from more powerful close-sourced models. Our work establishes the necessity of integrating world models into autonomous agent frameworks to unlock sustained adaptability. Code is available at https://github.com/Tencent/SelfEvolvingAgent