WebATLAS: An LLM Agent with Experience-Driven Memory and Action Simulation
作者: Jiali Cheng, Anjishnu Kumar, Roshan Lal, Rishi Rajasekaran, Hani Ramezani, Omar Zia Khan, Oleg Rokhlenko, Sunny Chiu-Webster, Gang Hua, Hadi Amiri
分类: cs.LG, cs.AI, cs.CL, cs.IR, cs.MA, cs.RO
发布日期: 2025-10-26 (更新: 2025-12-19)
备注: 9 pages, NeurIPS 2025 Workshop on Language Agents and World Models
💡 一句话要点
提出WebATLAS以解决长时域网页导航问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 网页导航 经验驱动记忆 前瞻性行动模拟 智能代理 自动化任务完成 模块化架构
📋 核心要点
- 现有的LLM网页代理在长时域导航和新网站任务完成上效率低下,需依赖环境特定数据进行微调。
- WebATLAS通过经验驱动的记忆和前瞻性行动模拟,使LLM代理能够适应未见过的网页环境,提升任务完成能力。
- 在WebArena-Lite基准测试中,WebATLAS的成功率为63%,显著高于之前的53.9%,展示了其有效性和创新性。
📝 摘要(中文)
大型语言模型(LLM)网页代理在新网站的长时域导航和任务完成方面常常面临挑战,导致行动序列效率低下。本文展示了经验驱动的记忆与前瞻性行动模拟的结合,能够使LLM代理适应未见过的网页环境,通过记住过去的失败和预测未来行动的后果。我们提出了WebATLAS(带有前瞻性行动模拟的演员-评论家任务完成模型),该模型通过交互经验学习轻量级的环境内部模型,并在实际行动前进行假设性行动展开。WebATLAS通过好奇心驱动的探索构建持久的认知地图,将交互结果存储为经验记忆,并使用规划者-模拟器-评论家循环评估候选行动,从而使代理能够重用过去的经验,避免之前不成功的行为,并生成更高效的计划。我们在WebArena-Lite基准上评估WebATLAS,成功率达到63%,超越了之前的最先进水平53.9%。
🔬 方法详解
问题定义:本文旨在解决大型语言模型(LLM)网页代理在长时域导航和新网站任务完成中的低效问题,现有方法往往需要针对特定网站进行微调,限制了其通用性和适应性。
核心思路:WebATLAS的核心思路是结合经验驱动的记忆与前瞻性行动模拟,使代理能够通过记忆过去的失败和预测未来的行动后果来适应新的网页环境。
技术框架:WebATLAS的整体架构包括三个主要模块:经验记忆模块、前瞻性行动模拟模块和规划者-模拟器-评论家循环。代理通过与环境的交互构建认知地图,并在实际行动前进行假设性行动展开。
关键创新:WebATLAS的最大创新在于其无需针对特定网站进行微调的模块化架构,利用经验驱动的记忆和前瞻性行动模拟来提升代理的适应能力和效率。
关键设计:在设计中,WebATLAS采用了好奇心驱动的探索策略,存储交互结果作为经验记忆,并通过规划者-模拟器-评论家循环评估候选行动,确保代理能够重用过去的经验并生成高效的行动计划。
🖼️ 关键图片
📊 实验亮点
WebATLAS在WebArena-Lite基准测试中取得了63%的成功率,显著高于之前的53.9%的最先进水平,展示了其在长时域网页导航中的有效性。通过模块化设计,WebATLAS无需进行网站特定的微调,极大地提升了其通用性和适应能力。
🎯 应用场景
WebATLAS的研究成果在自动化网页导航、信息检索和在线任务执行等领域具有广泛的应用潜力。其创新的记忆和行动模拟机制能够提升智能代理在复杂和动态环境中的表现,未来可扩展到更多实际应用场景,如智能客服和自动化数据采集等。
📄 摘要(原文)
Large Language Model (LLM) web agents often struggle with long-horizon web navigation and web task completion in new websites, producing inefficient action sequences unless fine-tuned on environment-specific data. We show that experience-driven memory, combined with look-ahead action simulation, is sufficient for LLM agents to adapt to unseen web environments by remembering past failures and predicting the consequences of future actions. We introduce WebATLAS (Actor-Critic Task-completion with Look-ahead Action Simulation), a memory-augmented LLM web agent that learns a lightweight internal model of the environment from interaction experience and performs hypothetical action rollouts before acting in the real world. WebATLAS builds a persistent cognitive map via curiosity-driven exploration, stores interaction outcomes as experience-based memory, and evaluates candidate actions in cognitive space using a planner--simulator--critic loop. This enables the agent to reuse past experience, avoid previously unsuccessful behaviors, and generate more efficient plans. We evaluate WebATLAS on the WebArena-Lite benchmark for autonomous web navigation and demonstrate a success rate of 63%, outperforming the previous state-of-the-art at 53.9%. Unlike previous systems, our modular architecture requires no website-specific LLM fine-tuning. Ablation studies confirm that experience-driven memory, look-ahead action simulation, and hierarchical replanning play complementary roles in enabling robust, training-free web agents.