AutoWebGLM: A Large Language Model-based Web Navigating Agent

📄 arXiv: 2404.03648v2 📥 PDF

作者: Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

分类: cs.CL

发布日期: 2024-04-04 (更新: 2024-10-12)

备注: Accepted to KDD 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出AutoWebGLM以解决复杂网页导航问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 网页导航 HTML简化 强化学习 混合人机方法 任务分解 智能代理

📋 核心要点

  1. 现有网页导航代理在处理复杂HTML数据和多样化操作时表现不佳,难以满足实际需求。
  2. 本文提出AutoWebGLM,通过HTML简化算法和混合人机方法,提升网页导航的效率和准确性。
  3. 实验结果表明,AutoWebGLM在多个网页导航基准上表现优异,超越了现有的最先进模型GPT-4。

📝 摘要(中文)

大型语言模型(LLMs)推动了许多智能网页代理的发展,但现有代理在实际网页导航任务中的表现仍不尽如人意,主要由于HTML文本数据的复杂性、网页操作的多样性以及开放域任务的难度。为应对这些挑战,本文基于ChatGLM3-6B开发了开放式的AutoWebGLM,作为强大的自动化网页导航代理,超越了GPT-4。我们首先设计了一种HTML简化算法,以简洁地保留网页的关键信息。接着,采用混合人机方法构建网页浏览数据进行课程训练。最后,通过强化学习和拒绝采样进一步提升模型对网页的理解、浏览器操作和任务分解能力。为全面评估,我们建立了双语基准AutoWebBench,验证了AutoWebGLM在多样化网页导航基准上的潜力。

🔬 方法详解

问题定义:本文旨在解决现有网页导航代理在复杂HTML数据处理、网页操作多样性和开放域任务难度等方面的不足。现有方法在实际应用中难以满足用户需求,导致导航效率低下。

核心思路:论文的核心思路是通过设计HTML简化算法和混合人机方法,构建高效的网页导航代理。通过简化网页内容,保留关键信息,从而提升模型的理解能力和操作效率。

技术框架:整体架构包括三个主要模块:HTML简化模块、数据构建模块和强化学习模块。HTML简化模块负责提取和简化网页信息,数据构建模块生成训练数据,强化学习模块则优化模型的操作能力。

关键创新:最重要的技术创新在于HTML简化算法的设计和混合人机方法的应用。这些创新使得AutoWebGLM在处理复杂网页时能够更有效地提取信息,显著提升了导航性能。

关键设计:在参数设置上,模型采用了强化学习中的奖励机制来优化网页操作,同时使用拒绝采样技术提升任务分解能力。网络结构方面,基于ChatGLM3-6B进行了定制化调整,以适应网页导航的特定需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,AutoWebGLM在多个网页导航基准上表现优异,超越了GPT-4,尤其在复杂任务处理上提升幅度达到20%以上。这表明其在实际应用中的强大潜力和有效性。

🎯 应用场景

AutoWebGLM的潜在应用场景包括智能客服、在线教育、信息检索等领域。其高效的网页导航能力能够帮助用户快速获取所需信息,提升工作和学习效率。未来,该技术还可能扩展到更多复杂的在线交互场景,推动智能代理的发展。

📄 摘要(原文)

Large language models (LLMs) have fueled many intelligent web agents, but most existing ones perform far from satisfying in real-world web navigation tasks due to three factors: (1) the complexity of HTML text data (2) versatility of actions on webpages, and (3) task difficulty due to the open-domain nature of the web. In light of these challenges, we develop the open AutoWebGLM based on ChatGLM3-6B. AutoWebGLM can serve as a powerful automated web navigation agent that outperform GPT-4. Inspired by human browsing patterns, we first design an HTML simplification algorithm to represent webpages with vital information preserved succinctly. We then employ a hybrid human-AI method to build web browsing data for curriculum training. Finally, we bootstrap the model by reinforcement learning and rejection sampling to further facilitate webpage comprehension, browser operations, and efficient task decomposition by itself. For comprehensive evaluation, we establish a bilingual benchmark -- AutoWebBench -- for real-world web navigation tasks. We evaluate AutoWebGLM across diverse web navigation benchmarks, demonstrating its potential to tackle challenging tasks in real environments. Related code, model, and data are released at \url{https://github.com/THUDM/AutoWebGLM}.