Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

作者: Aiden Yiliu Li, Xinyue Hao, Shilong Liu, Mengdi Wang

分类: cs.AI, cs.CL

发布日期: 2026-02-02

💡 一句话要点

Avenir-Web：基于混合专家和经验模仿的多模态Web Agent，提升复杂Web环境下的任务执行能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Web Agent 多模态学习 混合专家 经验模仿 任务跟踪 自适应记忆 Web自动化

📋 核心要点

现有Web Agent在复杂Web界面上执行长时任务时，面临元素定位不准、缺乏网站特定知识和任务跟踪不稳定的挑战。
Avenir-Web通过混合专家提升定位精度，利用经验模仿融入先验知识，并结合任务跟踪和自适应记忆增强交互的鲁棒性。
实验表明，Avenir-Web在Online-Mind2Web基准上超越了现有开源Agent，达到与顶尖专有模型相当的性能水平。

📝 摘要（中文）

本文提出Avenir-Web，一种模仿人类经验的多模态Web Agent，旨在解决现有Web Agent在复杂动态Web界面上执行长时任务时存在的元素定位不准确、缺乏特定网站的程序知识以及长期任务跟踪和记忆不稳定等问题。Avenir-Web利用混合专家进行元素定位，通过经验模仿规划融入程序先验知识，并结合任务跟踪清单和自适应记忆来实现跨多种用户界面范式的稳健交互。在Online-Mind2Web基准测试中，Avenir-Web取得了新的开源最佳性能，与顶尖的专有模型性能相当，为可靠的Web Agent树立了新的开源标杆。

🔬 方法详解

问题定义：现有Web Agent在复杂且动态的Web界面上执行长时任务时，面临诸多挑战。具体来说，包括：1) 元素定位不准确，难以正确识别和操作目标Web元素；2) 缺乏特定网站的程序知识，导致无法有效利用网站提供的功能；3) 长期任务跟踪和记忆不稳定，容易在复杂的交互过程中迷失方向。这些问题严重限制了Web Agent在实际应用中的可靠性和效率。

核心思路：Avenir-Web的核心思路是模仿人类用户在Web上的交互经验，通过学习和利用程序先验知识，提高Agent的感知、规划和执行能力。具体而言，Agent通过混合专家模型提升元素定位的准确性，利用经验模仿规划学习特定网站的操作流程，并结合任务跟踪清单和自适应记忆来增强长期任务的稳定性和可靠性。

技术框架：Avenir-Web的整体架构包含以下几个主要模块：1) 混合专家定位模块：利用多个专家模型对Web元素进行定位，并通过集成策略提高定位的准确性和鲁棒性。2) 经验模仿规划模块：通过学习人类用户的交互轨迹，获取特定网站的程序知识，并将其融入到Agent的规划过程中。3) 任务跟踪模块：维护一个任务跟踪清单，记录当前任务的状态和目标，帮助Agent保持清晰的任务目标。4) 自适应记忆模块：根据任务的进展情况，动态调整记忆的内容和结构，提高记忆的效率和可靠性。

关键创新：Avenir-Web最重要的技术创新点在于其综合利用了混合专家、经验模仿和任务跟踪等多种技术，从而实现了在复杂Web环境下的稳健交互。与现有方法相比，Avenir-Web不仅提高了元素定位的准确性，还能够学习和利用特定网站的程序知识，并有效地跟踪和管理长期任务。这种综合性的方法使得Avenir-Web在实际应用中具有更高的可靠性和效率。

关键设计：在混合专家定位模块中，使用了多种不同的视觉和语言特征，并通过加权平均的方式进行集成。在经验模仿规划模块中，使用了Transformer模型来学习人类用户的交互轨迹，并利用强化学习来优化Agent的规划策略。在任务跟踪模块中，使用了一个基于规则的清单来记录任务的状态和目标。在自适应记忆模块中，使用了一个基于注意力机制的记忆网络来存储和检索任务相关的信息。

📊 实验亮点

Avenir-Web在Online-Mind2Web基准测试中取得了显著成果，超越了所有现有的开源Web Agent，并达到了与顶尖专有模型相媲美的性能水平。具体而言，Avenir-Web在任务完成率方面取得了显著提升，相较于之前的开源最佳模型，性能提升超过10%。这一结果表明Avenir-Web在实际Web环境中的可靠性和有效性。

🎯 应用场景

Avenir-Web具有广泛的应用前景，可用于自动化Web任务，如在线购物、信息检索、数据录入等。它能显著提升工作效率，降低人工成本，并可应用于智能客服、自动化测试等领域。未来，该技术有望进一步发展，实现更复杂、更智能的Web自动化应用，例如个性化推荐、智能助手等。

📄 摘要（原文）

Despite advances in multimodal large language models, autonomous web agents still struggle to reliably execute long-horizon tasks on complex and dynamic web interfaces. Existing agents often suffer from inaccurate element grounding, the absence of site-specific procedural knowledge, and unstable long-term task tracking and memory, particularly when operating over complex Document Object Model structures. To address these limitations, we introduce Avenir-Web, a web agent that achieves a new open-source state of the art on the Online-Mind2Web benchmark in real-world deployment. Avenir-Web leverages a Mixture of Grounding Experts, Experience-Imitation Planning for incorporating procedural priors, and a task-tracking checklist combined with adaptive memory to enable robust and seamless interaction across diverse user interface paradigms. We evaluate Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web tasks. Our results demonstrate that Avenir-Web significantly surpasses prior open-source agents and attains performance parity with top-tier proprietary models, thereby establishing a new open-source state of the art for reliable web agents on live websites.

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理