Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents
作者: Jaekyeom Kim, Dong-Ki Kim, Lajanugen Logeswaran, Sungryull Sohn, Honglak Lee
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-10-29
备注: EMNLP 2024 Findings
💡 一句话要点
Auto-Intent:无需微调,自动发现意图并自探索的大语言模型Web Agent
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 Web Agent 意图发现 自探索 无监督学习 Web导航 零样本学习
📋 核心要点
- 现有方法缺乏有效利用预训练LLM在Web导航等任务中的潜力,通常需要大量微调。
- Auto-Intent通过无监督意图发现和自探索机制,使LLM Agent能够更好地理解和执行Web导航任务。
- 实验表明,Auto-Intent显著提升了GPT和Llama等LLM Agent在多个Web导航基准测试上的性能。
📝 摘要(中文)
本文介绍了一种名为Auto-Intent的方法,该方法旨在将预训练的大语言模型(LLM)适配为特定领域的Agent,而无需直接进行微调。我们主要关注Web导航任务。我们的方法首先以无监督的方式从目标领域的演示数据中发现潜在的意图,并以高度紧凑的形式(最多三个词)表示这些意图。然后,我们训练一个意图预测器,根据Agent过去观察和采取的行动来预测下一个意图。特别地,我们提出了一种自探索方法,其中将top-k个最可能的意图预测作为提示提供给预训练的LLM Agent,从而增强其决策能力。Auto-Intent显著提高了GPT-{3.5, 4}和Llama-3.1-{70B, 405B} Agent在Mind2Web的大规模真实网站导航基准测试和WebArena的在线导航任务上的性能,并实现了从Mind2Web的跨基准泛化。
🔬 方法详解
问题定义:现有的大语言模型Web Agent通常需要针对特定领域进行微调,这需要大量的标注数据和计算资源。此外,如何有效地利用预训练LLM的知识来指导Agent的探索也是一个挑战。因此,论文旨在解决如何在无需微调的情况下,使LLM Agent能够自动发现并利用潜在的意图,从而在Web导航任务中实现高效的决策。
核心思路:论文的核心思路是首先从目标领域的演示数据中无监督地提取出紧凑的意图表示。然后,训练一个意图预测器,根据Agent的观察和行动历史预测下一个意图。最后,利用预测的意图作为提示,引导预训练的LLM Agent进行自探索,从而提高其决策能力。这种方法避免了直接微调LLM,并充分利用了预训练模型的知识。
技术框架:Auto-Intent的整体框架包括三个主要阶段:1) 无监督意图发现:使用聚类等方法从演示数据中提取出代表性的意图,并用简洁的短语表示。2) 意图预测器训练:训练一个模型,根据Agent的观察和行动历史预测下一个意图。3) 自探索:将top-k个最可能的意图预测作为提示提供给预训练的LLM Agent,引导其进行决策。
关键创新:该方法最重要的创新点在于提出了一种无需微调的意图驱动的自探索框架。与传统的微调方法相比,Auto-Intent能够更有效地利用预训练LLM的知识,并减少对标注数据的依赖。此外,无监督意图发现和意图预测器的结合,使得Agent能够更好地理解和执行Web导航任务。
关键设计:在无监督意图发现阶段,论文可能采用了诸如k-means或层次聚类等算法,并结合人工或自动的方式选择具有代表性的意图短语。意图预测器可以使用Transformer等序列模型,并采用交叉熵损失函数进行训练。自探索阶段的关键在于如何有效地将意图提示融入到LLM Agent的决策过程中,例如可以通过prompt engineering的方式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Auto-Intent在Mind2Web和WebArena等基准测试上显著提高了GPT-{3.5, 4}和Llama-3.1-{70B, 405B} Agent的性能。尤其是在跨基准泛化方面,Auto-Intent表现出色,证明了其具有良好的泛化能力。具体的性能提升数据未知,但摘要强调了“substantially improves the performance”。
🎯 应用场景
Auto-Intent具有广泛的应用前景,例如智能客服、自动化测试、网页信息提取等。通过自动发现用户意图并进行自探索,Agent可以更有效地完成各种Web导航任务,提高工作效率,降低人工成本。该研究还可以推广到其他领域,例如机器人控制、游戏AI等。
📄 摘要(原文)
In this paper, we introduce Auto-Intent, a method to adapt a pre-trained large language model (LLM) as an agent for a target domain without direct fine-tuning, where we empirically focus on web navigation tasks. Our approach first discovers the underlying intents from target domain demonstrations unsupervisedly, in a highly compact form (up to three words). With the extracted intents, we train our intent predictor to predict the next intent given the agent's past observations and actions. In particular, we propose a self-exploration approach where top-k probable intent predictions are provided as a hint to the pre-trained LLM agent, which leads to enhanced decision-making capabilities. Auto-Intent substantially improves the performance of GPT-{3.5, 4} and Llama-3.1-{70B, 405B} agents on the large-scale real-website navigation benchmarks from Mind2Web and online navigation tasks from WebArena with its cross-benchmark generalization from Mind2Web.