AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations

📄 arXiv: 2411.13451v1 📥 PDF

作者: Gaurav Verma, Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Tucker Balch, Manuela Veloso

分类: cs.AI, cs.CL, cs.LG

发布日期: 2024-11-20

备注: 18 pages, 3 figures, an abridged version to appear in NeurIPS 2024 AFM Workshop


💡 一句话要点

AdaptAgent:利用少量人类演示,实现多模态Web Agent的快速适应

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web Agent 多模态学习 少量样本学习 人机交互 元学习

📋 核心要点

  1. 现有Web Agent难以在未见过的网站和领域上泛化,限制了其在企业特定平台上的应用。
  2. AdaptAgent框架利用少量人类演示,使Agent能够快速适应新的Web环境,无需大规模重新训练。
  3. 实验表明,AdaptAgent在两个基准测试中显著提高了任务成功率,证明了少量样本适应性的有效性。

📝 摘要(中文)

当前的多模态Web Agent依赖于多模态大语言模型(MLLM)的泛化能力和提示工程的可控性,以及在Web相关任务上的大规模微调。然而,这些Agent在未见过的网站和领域上自动化任务时仍然面临挑战。本文提出了AdaptAgent框架,通过少量的人类演示(最多2个)使专有和开源的多模态Web Agent能够适应新的网站和领域。在Mind2Web和VisualWebArena两个基准测试上的实验表明,使用上下文演示(对于专有模型)或元适应演示(对于元学习的开源模型)可以将任务成功率提高3.36%到7.21%,相对提升幅度为21.03%到65.75%。此外,分析表明多模态演示比纯文本演示更有效,揭示了元学习期间不同数据选择策略对Agent泛化的影响,并展示了少量样本数量对Web Agent成功率的影响。结果表明,除了大规模预训练和微调之外,少量样本适应性是开发广泛适用的多模态Web Agent的另一条有效途径。

🔬 方法详解

问题定义:现有Web Agent依赖大规模预训练和微调,但在面对新的、未见过的网站和领域时,泛化能力不足,难以适应企业特定的平台。痛点在于缺乏快速适应新环境的能力,需要耗费大量资源进行重新训练或微调。

核心思路:核心思路是利用少量的人类演示,让Agent能够通过模仿学习快速适应新的Web环境。通过学习人类专家在特定网站上的操作模式,Agent可以更好地理解网站的结构和交互方式,从而提高任务完成的成功率。

技术框架:AdaptAgent框架包含两个主要分支:针对专有模型的上下文学习(In-Context Learning)和针对开源模型的元学习(Meta-Learning)。对于专有模型,直接将人类演示作为上下文输入到MLLM中。对于开源模型,首先使用包含人类演示的数据集进行元学习,然后在新的网站上进行少量样本的适应。整体流程包括数据收集、预处理、模型训练/适应和评估。

关键创新:关键创新在于将少量样本学习的思想引入到Web Agent的训练中,并提出了两种不同的适应策略:上下文学习和元学习。这使得Agent能够在不需要大规模重新训练的情况下,快速适应新的Web环境。与现有方法相比,AdaptAgent更加灵活和高效。

关键设计:在元学习阶段,论文研究了不同的数据选择策略对Agent泛化能力的影响。具体来说,探索了如何选择最具代表性的人类演示数据来训练Agent,以提高其在未见过的网站上的表现。此外,还分析了少量样本的数量对Agent成功率的影响,确定了最佳的样本数量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AdaptAgent在Mind2Web和VisualWebArena两个基准测试中均取得了显著的提升。对于专有模型,使用上下文演示可以将任务成功率提高3.36%。对于开源模型,使用元适应演示可以将任务成功率提高7.21%,相对提升幅度高达65.75%。此外,实验还证明了多模态演示比纯文本演示更有效。

🎯 应用场景

AdaptAgent可应用于各种需要Web自动化的场景,例如企业内部的自动化流程、特定行业的Web应用操作、以及个性化的Web助手。该研究的实际价值在于降低了Web Agent部署和维护的成本,提高了其在实际应用中的灵活性和适应性。未来,AdaptAgent可以进一步扩展到更复杂的Web任务和更广泛的Web环境。

📄 摘要(原文)

State-of-the-art multimodal web agents, powered by Multimodal Large Language Models (MLLMs), can autonomously execute many web tasks by processing user instructions and interacting with graphical user interfaces (GUIs). Current strategies for building web agents rely on (i) the generalizability of underlying MLLMs and their steerability via prompting, and (ii) large-scale fine-tuning of MLLMs on web-related tasks. However, web agents still struggle to automate tasks on unseen websites and domains, limiting their applicability to enterprise-specific and proprietary platforms. Beyond generalization from large-scale pre-training and fine-tuning, we propose building agents for few-shot adaptability using human demonstrations. We introduce the AdaptAgent framework that enables both proprietary and open-weights multimodal web agents to adapt to new websites and domains using few human demonstrations (up to 2). Our experiments on two popular benchmarks -- Mind2Web & VisualWebArena -- show that using in-context demonstrations (for proprietary models) or meta-adaptation demonstrations (for meta-learned open-weights models) boosts task success rate by 3.36% to 7.21% over non-adapted state-of-the-art models, corresponding to a relative increase of 21.03% to 65.75%. Furthermore, our additional analyses (a) show the effectiveness of multimodal demonstrations over text-only ones, (b) shed light on the influence of different data selection strategies during meta-learning on the generalization of the agent, and (c) demonstrate the effect of number of few-shot examples on the web agent's success rate. Overall, our results unlock a complementary axis for developing widely applicable multimodal web agents beyond large-scale pre-training and fine-tuning, emphasizing few-shot adaptability.