Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation
作者: Hyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo
分类: cs.CL
发布日期: 2024-10-17 (更新: 2025-03-29)
备注: ICLR 2025
💡 一句话要点
提出WMA:一种基于世界模型的Web Agent,提升Web导航任务决策能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web Agent 世界模型 长时程任务 语言模型 Web导航
📋 核心要点
- 现有基于LLM的Web Agent在长时程任务中表现不佳,缺乏对行动后果的预测能力,导致重复犯错。
- 论文提出WMA,通过训练LLM作为世界模型来预测行动结果,从而辅助Agent进行更明智的决策。
- 实验表明,WMA在WebArena和Mind2Web上提升了Agent的策略选择能力,并提高了成本和时间效率。
📝 摘要(中文)
大型语言模型(LLMs)在构建自主Agent方面备受关注。然而,当前基于LLM的Web Agent在长时程任务中的表现远非最佳,例如重复购买不可退款的机票。相比之下,人类可以避免这种不可逆转的错误,因为我们对行动的潜在结果有所感知,即拥有“世界模型”。受此启发,本研究首先进行了初步分析,证实了当前LLM(如GPT-4o、Claude-3.5-Sonnet等)中缺乏世界模型。然后,我们提出了一种世界模型增强(WMA)的Web Agent,它模拟其行动的结果以进行更好的决策。为了克服训练LLM作为世界模型预测下一个观察结果的挑战,例如观察结果中重复的元素和长的HTML输入,我们提出了一种以转换为中心的观察抽象,其中预测目标是自由形式的自然语言描述,专门突出显示时间步之间的重要状态差异。在WebArena和Mind2Web上的实验表明,我们的世界模型在没有训练的情况下提高了Agent的策略选择,并证明了我们的Agent相比于最近基于树搜索的Agent的成本和时间效率。
🔬 方法详解
问题定义:现有基于LLM的Web Agent在Web导航等长时程任务中,由于缺乏对环境动态的建模能力,无法预测行动的潜在后果,导致决策失误,例如重复购买不可退款的机票。现有方法难以处理Web环境中的长HTML输入和观察结果中的重复元素,使得训练有效的世界模型成为挑战。
核心思路:论文的核心思路是为Web Agent配备一个“世界模型”,使其能够模拟行动的潜在结果,从而在决策前评估不同行动的风险和收益。通过预测行动后的状态变化,Agent可以避免执行可能导致不良后果的行动,从而提高任务完成的成功率。
技术框架:WMA (World-model-augmented) Web Agent的整体框架包括以下几个主要模块:1) 观察模块:负责解析Web环境的HTML结构,提取关键信息。2) 世界模型:基于LLM训练,用于预测给定当前状态和行动后,环境可能发生的变化。3) 策略选择模块:利用世界模型预测的结果,评估不同行动的潜在收益和风险,选择最优行动。4) 行动执行模块:执行选定的行动,并更新Agent的状态。
关键创新:论文的关键创新在于提出了一种“以转换为中心的观察抽象”方法,用于训练世界模型。该方法将预测目标设定为自由形式的自然语言描述,专门突出显示时间步之间的重要状态差异,而不是直接预测完整的HTML结构。这种方法有效地减少了需要预测的信息量,降低了训练难度,并提高了世界模型的预测精度。
关键设计:在训练世界模型时,论文采用了对比学习的策略,鼓励模型预测与真实状态变化更接近的描述。损失函数的设计旨在最大化真实状态变化描述的概率,同时最小化错误预测的概率。此外,论文还探索了不同的LLM架构和训练策略,以优化世界模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,WMA在WebArena和Mind2Web数据集上显著提高了Web Agent的性能。具体而言,WMA在没有训练的情况下提高了Agent的策略选择能力,并实现了比基于树搜索的Agent更高的成本和时间效率。例如,在某些任务上,WMA可以将任务完成时间缩短50%以上,同时降低成本。
🎯 应用场景
该研究成果可应用于各种需要自主决策的Web Agent,例如智能购物助手、自动化信息检索系统、智能客服等。通过模拟行动的潜在后果,Agent可以更好地理解用户的意图,并提供更准确、更个性化的服务。此外,该技术还可以扩展到其他领域,例如机器人导航、游戏AI等,提高Agent在复杂环境中的适应性和决策能力。
📄 摘要(原文)
Large language models (LLMs) have recently gained much attention in building autonomous agents. However, the performance of current LLM-based web agents in long-horizon tasks is far from optimal, often yielding errors such as repeatedly buying a non-refundable flight ticket. By contrast, humans can avoid such an irreversible mistake, as we have an awareness of the potential outcomes (e.g., losing money) of our actions, also known as the "world model". Motivated by this, our study first starts with preliminary analyses, confirming the absence of world models in current LLMs (e.g., GPT-4o, Claude-3.5-Sonnet, etc.). Then, we present a World-model-augmented (WMA) web agent, which simulates the outcomes of its actions for better decision-making. To overcome the challenges in training LLMs as world models predicting next observations, such as repeated elements across observations and long HTML inputs, we propose a transition-focused observation abstraction, where the prediction objectives are free-form natural language descriptions exclusively highlighting important state differences between time steps. Experiments on WebArena and Mind2Web show that our world models improve agents' policy selection without training and demonstrate our agents' cost- and time-efficiency compared to recent tree-search-based agents.