Learning to Contextualize Web Pages for Enhanced Decision Making by LLM Agents

作者: Dongjun Lee, Juyong Lee, Kyuyoung Kim, Jihoon Tack, Jinwoo Shin, Yee Whye Teh, Kimin Lee

分类: cs.CL

发布日期: 2025-03-12 (更新: 2025-12-19)

备注: Accepted to ICLR 2025

💡 一句话要点

提出LCoW框架，通过上下文理解增强LLM Agent在Web任务中的决策能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent Web自动化 上下文理解 决策能力 网页结构

📋 核心要点

现有LLM Agent在处理真实Web场景时，由于难以理解复杂网页结构，导致任务成功率低。
LCoW框架通过训练独立的上下文理解模块，将复杂网页转化为LLM易于理解的形式，从而提升决策能力。
实验表明，LCoW显著提升了闭源和开源LLM Agent在Web自动化任务中的成功率，并在WebShop上超越人类专家。

📝 摘要（中文）

本文提出LCoW框架，旨在提升基于大型语言模型（LLM）的Agent在自动化Web任务中的决策能力。由于现有Agent在理解和处理复杂网页结构方面存在局限性，LCoW通过解耦网页理解和决策过程，训练一个独立的上下文理解模块，将复杂网页转换为更易理解的形式，供决策Agent使用。实验结果表明，LCoW能够有效集成到各种规模的LLM Agent中，显著提高其在Web自动化任务中的决策能力。在WorkArena基准测试中，LCoW使闭源LLM（如Gemini-1.5-flash、GPT-4o、Claude-3.5-Sonnet）的成功率平均提高15.6%，开源LLM（如Llama-3.1-8B、Llama-3.1-70B）的成功率平均提高23.7%。此外，配备LCoW的Gemini-1.5-flash Agent在WebShop基准测试中取得了最先进的结果，超越了人类专家。

🔬 方法详解

问题定义：现有基于LLM的Agent在Web自动化任务中表现不佳，主要原因是它们难以有效理解和处理复杂多变的网页结构。这些Agent通常直接处理原始HTML代码或渲染后的像素信息，这对于理解网页的语义结构和上下文信息构成了挑战，导致决策错误和任务失败。现有方法缺乏有效的网页上下文理解机制，无法充分利用网页中的信息。

核心思路：LCoW的核心思路是将网页理解和决策过程解耦。通过训练一个专门的上下文理解模块，将复杂的网页信息转换为一种更易于LLM理解的形式，例如结构化的文本描述或关键元素的提取。这样，决策Agent就可以专注于利用这些经过处理的信息进行决策，而无需直接处理原始的复杂网页数据。

技术框架：LCoW框架包含两个主要模块：上下文理解模块和决策Agent。上下文理解模块负责接收原始网页数据（例如HTML代码或渲染后的图像），并将其转换为一种结构化的、易于理解的表示形式。这个模块可以使用各种技术，例如自然语言处理、计算机视觉和信息抽取。决策Agent则接收上下文理解模块的输出，并根据这些信息做出决策，例如点击链接、填写表单或搜索信息。整个流程是先由上下文理解模块处理网页，然后将处理后的信息传递给决策Agent。

关键创新：LCoW的关键创新在于其解耦的架构和专门的上下文理解模块。与直接让LLM处理原始网页数据的方法不同，LCoW通过预处理步骤，显著降低了LLM的认知负担，使其能够更有效地利用网页信息进行决策。这种解耦的设计使得LCoW可以灵活地与各种不同的LLM Agent集成，并针对不同的网页类型和任务进行优化。

关键设计：上下文理解模块的具体实现可以根据任务需求进行选择。例如，可以使用基于Transformer的模型来提取网页中的关键信息，或者使用计算机视觉技术来识别网页中的视觉元素。损失函数的设计需要考虑如何最大化上下文理解模块的输出与决策Agent的性能之间的相关性。此外，还可以使用数据增强技术来提高上下文理解模块的鲁棒性。

🖼️ 关键图片

📊 实验亮点

LCoW在WorkArena基准测试中，使闭源LLM（Gemini-1.5-flash、GPT-4o、Claude-3.5-Sonnet）的成功率平均提高15.6%，开源LLM（Llama-3.1-8B、Llama-3.1-70B）的成功率平均提高23.7%。更重要的是，配备LCoW的Gemini-1.5-flash Agent在WebShop基准测试中超越了人类专家，取得了当前最佳性能。

🎯 应用场景

LCoW框架具有广泛的应用前景，可用于自动化各种Web任务，例如在线购物、数据抓取、信息检索和自动化测试。通过提升LLM Agent在Web环境中的决策能力，LCoW可以显著提高工作效率，降低人工成本，并为用户提供更智能化的Web服务。未来，LCoW可以进一步扩展到移动应用和桌面应用等其他领域。

📄 摘要（原文）

Recent advances in large language models (LLMs) have led to a growing interest in developing LLM-based agents for automating web tasks. However, these agents often struggle with even simple tasks on real-world websites due to their limited capability to understand and process complex web page structures. In this work, we introduce LCoW, a framework for Learning language models to Contextualize complex Web pages into a more comprehensible form, thereby enhancing decision making by LLM agents. LCoW decouples web page understanding from decision making by training a separate contextualization module to transform complex web pages into comprehensible format, which are then utilized by the decision-making agent. We demonstrate that our contextualization module effectively integrates with LLM agents of various scales to significantly enhance their decision-making capabilities in web automation tasks. Notably, LCoW improves the success rates of closed-source LLMs (e.g., Gemini-1.5-flash, GPT-4o, Claude-3.5-Sonnet) by an average of 15.6%, and demonstrates a 23.7% average improvement in success rates for open-source LMs (e.g., Llama-3.1-8B, Llama-3.1-70B) on the WorkArena benchmark. Moreover, the Gemini-1.5-flash agent with LCoW achieves state-of-the-art results on the WebShop benchmark, outperforming human experts. The relevant code materials are available at our project page: https://lcowiclr2025.github.io.

Learning to Contextualize Web Pages for Enhanced Decision Making by LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理