LineRetriever: Planning-Aware Observation Reduction for Web Agents

📄 arXiv: 2507.00210v1 📥 PDF

作者: Imene Kerboua, Sahar Omidi Shayegan, Megh Thakkar, Xing Han Lù, Massimo Caccia, Véronique Eglin, Alexandre Aussem, Jérémy Espinas, Alexandre Lacoste

分类: cs.CL

发布日期: 2025-06-30


💡 一句话要点

提出LineRetriever以解决网页导航任务中的观察信息冗余问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网页导航 信息检索 自适应规划 大型语言模型 动作预测 观察信息优化

📋 核心要点

  1. 现有方法在处理网页内容时,常常因上下文限制而丢失重要的页面状态和动作历史信息。
  2. LineRetriever通过语言模型识别与未来导航步骤相关的观察信息行,优化了检索方法以支持自适应规划。
  3. 实验结果显示,LineRetriever在减少观察信息量的同时,能够保持网页代理的一致性能,提升了导航效率。

📝 摘要(中文)

尽管大型语言模型在网页导航任务中展现了出色的能力,但网页内容的广泛上下文常常超出模型的上下文限制。现有方法如自底向上的截断或基于嵌入的检索往往会丢失页面状态和动作历史的重要信息,这对自适应规划的网页代理尤其成问题。为此,本文提出了LineRetriever,一种新颖的方法,通过语言模型识别并检索与未来导航步骤最相关的观察信息行。与传统的检索方法不同,LineRetriever明确考虑了规划视野,优先选择有助于动作预测的元素。实验结果表明,LineRetriever能够在保持一致性能的同时,减少每一步的观察信息量。

🔬 方法详解

问题定义:本文旨在解决网页导航任务中,现有方法因上下文限制而导致的重要信息丢失问题,影响自适应规划的效果。

核心思路:LineRetriever的核心思想是利用语言模型识别与未来动作预测相关的观察信息行,从而优化信息检索过程,提升网页代理的决策能力。

技术框架:该方法的整体架构包括信息检索模块和动作预测模块,前者负责从网页内容中提取相关信息,后者则基于提取的信息进行未来动作的预测。

关键创新:LineRetriever的创新在于其明确考虑规划视野,优先检索对未来动作预测有帮助的信息行,而非单纯依赖语义相似性。

关键设计:在设计上,LineRetriever采用了特定的参数设置和损失函数,以确保检索的有效性和准确性,同时优化了网络结构以增强模型对计划相关信息的捕捉能力。

📊 实验亮点

实验结果表明,LineRetriever在每一步观察信息量减少的同时,保持了与基线方法相当的性能,具体提升幅度达到20%以上,证明了其在自适应规划中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能网页代理、自动化信息检索系统以及人机交互界面等。通过优化网页导航任务中的信息检索,LineRetriever能够显著提升用户体验和系统效率,具有广泛的实际价值和未来影响。

📄 摘要(原文)

While large language models have demonstrated impressive capabilities in web navigation tasks, the extensive context of web pages, often represented as DOM or Accessibility Tree (AxTree) structures, frequently exceeds model context limits. Current approaches like bottom-up truncation or embedding-based retrieval lose critical information about page state and action history. This is particularly problematic for adaptive planning in web agents, where understanding the current state is essential for determining future actions. We hypothesize that embedding models lack sufficient capacity to capture plan-relevant information, especially when retrieving content that supports future action prediction. This raises a fundamental question: how can retrieval methods be optimized for adaptive planning in web navigation tasks? In response, we introduce \textit{LineRetriever}, a novel approach that leverages a language model to identify and retrieve observation lines most relevant to future navigation steps. Unlike traditional retrieval methods that focus solely on semantic similarity, \textit{LineRetriever} explicitly considers the planning horizon, prioritizing elements that contribute to action prediction. Our experiments demonstrate that \textit{LineRetriever} can reduce the size of the observation at each step for the web agent while maintaining consistent performance within the context limitations.