Learning to Contextualize Web Pages for Enhanced Decision Making by LLM Agents

📄 arXiv: 2503.10689v2 📥 PDF

作者: Dongjun Lee, Juyong Lee, Kyuyoung Kim, Jihoon Tack, Jinwoo Shin, Yee Whye Teh, Kimin Lee

分类: cs.CL

发布日期: 2025-03-12 (更新: 2025-12-19)

备注: Accepted to ICLR 2025


💡 一句话要点

提出LCoW框架,通过上下文理解增强LLM Agent在Web任务中的决策能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent Web自动化 上下文理解 决策能力 网页结构

📋 核心要点

  1. 现有LLM Agent在处理真实Web场景时,由于难以理解复杂网页结构,导致任务成功率低。
  2. LCoW框架通过训练独立的上下文理解模块,将复杂网页转化为LLM易于理解的形式,从而提升决策能力。
  3. 实验表明,LCoW显著提升了闭源和开源LLM Agent在Web自动化任务中的成功率,并在WebShop上超越人类专家。

📝 摘要(中文)

本文提出LCoW框架,旨在提升基于大型语言模型(LLM)的Agent在自动化Web任务中的决策能力。由于现有Agent在理解和处理复杂网页结构方面存在局限性,LCoW通过解耦网页理解和决策过程,训练一个独立的上下文理解模块,将复杂网页转换为更易理解的形式,供决策Agent使用。实验结果表明,LCoW能够有效集成到各种规模的LLM Agent中,显著提高其在Web自动化任务中的决策能力。在WorkArena基准测试中,LCoW使闭源LLM(如Gemini-1.5-flash、GPT-4o、Claude-3.5-Sonnet)的成功率平均提高15.6%,开源LLM(如Llama-3.1-8B、Llama-3.1-70B)的成功率平均提高23.7%。此外,配备LCoW的Gemini-1.5-flash Agent在WebShop基准测试中取得了最先进的结果,超越了人类专家。

🔬 方法详解

问题定义:现有基于LLM的Agent在Web自动化任务中表现不佳,主要原因是它们难以有效理解和处理复杂多变的网页结构。这些Agent通常直接处理原始HTML代码或渲染后的像素信息,这对于理解网页的语义结构和上下文信息构成了挑战,导致决策错误和任务失败。现有方法缺乏有效的网页上下文理解机制,无法充分利用网页中的信息。

核心思路:LCoW的核心思路是将网页理解和决策过程解耦。通过训练一个专门的上下文理解模块,将复杂的网页信息转换为一种更易于LLM理解的形式,例如结构化的文本描述或关键元素的提取。这样,决策Agent就可以专注于利用这些经过处理的信息进行决策,而无需直接处理原始的复杂网页数据。

技术框架:LCoW框架包含两个主要模块:上下文理解模块和决策Agent。上下文理解模块负责接收原始网页数据(例如HTML代码或渲染后的图像),并将其转换为一种结构化的、易于理解的表示形式。这个模块可以使用各种技术,例如自然语言处理、计算机视觉和信息抽取。决策Agent则接收上下文理解模块的输出,并根据这些信息做出决策,例如点击链接、填写表单或搜索信息。整个流程是先由上下文理解模块处理网页,然后将处理后的信息传递给决策Agent。

关键创新:LCoW的关键创新在于其解耦的架构和专门的上下文理解模块。与直接让LLM处理原始网页数据的方法不同,LCoW通过预处理步骤,显著降低了LLM的认知负担,使其能够更有效地利用网页信息进行决策。这种解耦的设计使得LCoW可以灵活地与各种不同的LLM Agent集成,并针对不同的网页类型和任务进行优化。

关键设计:上下文理解模块的具体实现可以根据任务需求进行选择。例如,可以使用基于Transformer的模型来提取网页中的关键信息,或者使用计算机视觉技术来识别网页中的视觉元素。损失函数的设计需要考虑如何最大化上下文理解模块的输出与决策Agent的性能之间的相关性。此外,还可以使用数据增强技术来提高上下文理解模块的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LCoW在WorkArena基准测试中,使闭源LLM(Gemini-1.5-flash、GPT-4o、Claude-3.5-Sonnet)的成功率平均提高15.6%,开源LLM(Llama-3.1-8B、Llama-3.1-70B)的成功率平均提高23.7%。更重要的是,配备LCoW的Gemini-1.5-flash Agent在WebShop基准测试中超越了人类专家,取得了当前最佳性能。

🎯 应用场景

LCoW框架具有广泛的应用前景,可用于自动化各种Web任务,例如在线购物、数据抓取、信息检索和自动化测试。通过提升LLM Agent在Web环境中的决策能力,LCoW可以显著提高工作效率,降低人工成本,并为用户提供更智能化的Web服务。未来,LCoW可以进一步扩展到移动应用和桌面应用等其他领域。

📄 摘要(原文)

Recent advances in large language models (LLMs) have led to a growing interest in developing LLM-based agents for automating web tasks. However, these agents often struggle with even simple tasks on real-world websites due to their limited capability to understand and process complex web page structures. In this work, we introduce LCoW, a framework for Learning language models to Contextualize complex Web pages into a more comprehensible form, thereby enhancing decision making by LLM agents. LCoW decouples web page understanding from decision making by training a separate contextualization module to transform complex web pages into comprehensible format, which are then utilized by the decision-making agent. We demonstrate that our contextualization module effectively integrates with LLM agents of various scales to significantly enhance their decision-making capabilities in web automation tasks. Notably, LCoW improves the success rates of closed-source LLMs (e.g., Gemini-1.5-flash, GPT-4o, Claude-3.5-Sonnet) by an average of 15.6%, and demonstrates a 23.7% average improvement in success rates for open-source LMs (e.g., Llama-3.1-8B, Llama-3.1-70B) on the WorkArena benchmark. Moreover, the Gemini-1.5-flash agent with LCoW achieves state-of-the-art results on the WebShop benchmark, outperforming human experts. The relevant code materials are available at our project page: https://lcowiclr2025.github.io.