WEPO: Web Element Preference Optimization for LLM-based Web Navigation
作者: Jiarun Liu, Jia Hao, Chunhong Zhang, Zheng Hu
分类: cs.CL
发布日期: 2024-12-14
备注: Published at AAAI 2025
💡 一句话要点
WEPO:通过网页元素偏好优化提升LLM在网页导航中的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网页导航 大语言模型 偏好优化 对比学习 负样本采样
📋 核心要点
- 现有网页导航方法未能充分利用HTML元素的冗余信息进行有效的对比学习,限制了LLM智能体的性能。
- WEPO通过无监督偏好学习,采样距离相关的非显著元素作为负样本,优化LLM在网页导航中的动作选择。
- 在Mind2Web基准测试中,WEPO显著优于现有方法,证明了其在网页导航任务中的有效性,并达到SOTA。
📝 摘要(中文)
自主网页导航的快速发展得益于预训练大语言模型(LLM)作为智能体的应用。然而,目前的研究尚未充分利用HTML元素的冗余性进行对比训练。本文提出了一种基于LLM的网页导航新方法,称为网页元素偏好优化(WEPO)。WEPO通过采样基于距离的非显著网页元素作为负样本,利用无监督偏好学习,在直接偏好优化(DPO)中优化最大似然目标。我们在Mind2Web基准上评估了WEPO,实验结果表明,WEPO能够更有效地将用户的高级意图与输出动作对齐。结果显示,我们的方法达到了最先进水平,相比WebAgent提升了13.8%,相比视觉语言模型CogAgent基线提升了5.3%。我们的发现强调了偏好优化在增强网页导航和其他基于网页的任务中的潜力,为未来的研究提供了一个有希望的方向。
🔬 方法详解
问题定义:论文旨在解决LLM在网页导航任务中,如何更有效地利用网页中大量HTML元素的问题。现有方法通常没有充分利用这些元素的冗余信息进行对比学习,导致LLM难以准确理解用户意图并做出正确的导航决策。现有方法的痛点在于缺乏有效的负样本选择策略,难以区分重要和不重要的网页元素。
核心思路:WEPO的核心思路是利用无监督偏好学习,通过采样距离相关的非显著网页元素作为负样本,来优化LLM的动作选择。这种方法基于一个假设:用户更有可能关注显著的、与任务相关的网页元素,而忽略那些距离较远或不相关的元素。通过对比学习,LLM可以学会区分这些元素,从而更好地理解用户意图。
技术框架:WEPO的技术框架主要包括以下几个阶段:1) 网页元素提取:从HTML页面中提取所有可交互的元素。2) 负样本采样:根据距离度量,选择与当前元素距离较远的非显著元素作为负样本。3) 偏好优化:使用直接偏好优化(DPO)算法,根据用户意图和正负样本,优化LLM的策略。DPO直接优化策略,避免了生成奖励模型的中间步骤。
关键创新:WEPO的关键创新在于提出了基于距离的负样本采样策略。与随机采样或其他启发式方法相比,这种策略能够更有效地选择与当前元素语义差异较大的负样本,从而提高对比学习的效率。此外,WEPO直接在DPO框架下进行优化,简化了训练流程,提高了训练效率。
关键设计:WEPO的关键设计包括:1) 距离度量:使用HTML元素的DOM树结构距离作为距离度量,衡量元素之间的相关性。2) 非显著性判断:使用启发式规则或预训练模型判断元素的显著性。3) DPO损失函数:使用标准的DPO损失函数,鼓励LLM选择与用户意图更一致的动作,同时避免选择负样本对应的动作。具体的参数设置和网络结构取决于所使用的LLM模型。
🖼️ 关键图片
📊 实验亮点
WEPO在Mind2Web基准测试中取得了显著的性能提升,相比WebAgent提升了13.8%,相比视觉语言模型CogAgent基线提升了5.3%,达到了最先进水平。这些结果表明,WEPO能够更有效地将用户的高级意图与输出动作对齐,证明了偏好优化在增强网页导航任务中的有效性。
🎯 应用场景
WEPO具有广泛的应用前景,可应用于自动化网页浏览、智能助手、信息检索等领域。通过提升LLM在网页导航中的性能,WEPO可以帮助用户更高效地完成各种在线任务,例如预订机票、购买商品、查找信息等。未来,WEPO还可以扩展到其他基于网页的任务,例如网页内容生成、网页数据提取等。
📄 摘要(原文)
The rapid advancement of autonomous web navigation has significantly benefited from grounding pretrained Large Language Models (LLMs) as agents. However, current research has yet to fully leverage the redundancy of HTML elements for contrastive training. This paper introduces a novel approach to LLM-based web navigation tasks, called Web Element Preference Optimization (WEPO). WEPO utilizes unsupervised preference learning by sampling distance-based non-salient web elements as negative samples, optimizing maximum likelihood objective within Direct Preference Optimization (DPO). We evaluate WEPO on the Mind2Web benchmark and empirically demonstrate that WEPO aligns user high-level intent with output actions more effectively. The results show that our method achieved the state-of-the-art, with an improvement of 13.8% over WebAgent and 5.3% over the visual language model CogAgent baseline. Our findings underscore the potential of preference optimization to enhance web navigation and other web page based tasks, suggesting a promising direction for future research.