AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories

📄 arXiv: 2410.07706v1 📥 PDF

作者: Yifan Song, Weimin Xiong, Xiutian Zhao, Dawei Zhu, Wenhao Wu, Ke Wang, Cheng Li, Wei Peng, Sujian Li

分类: cs.CL, cs.AI

发布日期: 2024-10-10

备注: Findings of EMNLP 2024


💡 一句话要点

AgentBank:通过在5万+交互轨迹上微调,实现通用LLM Agent

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent AgentBank数据集 交互轨迹 微调 通用能力 Agent技能泛化 强化学习

📋 核心要点

  1. 现有开源LLM在Agent环境交互中泛化能力不足,缺乏大规模高质量的交互轨迹数据进行训练。
  2. 论文提出AgentBank数据集,包含5万+交互轨迹,覆盖多种任务和技能维度,并采用新标注流程减少难度偏差。
  3. 通过在AgentBank上微调LLM,得到Samoyed模型,实验证明扩展交互轨迹数据能有效提升Agent的通用能力。

📝 摘要(中文)

本文介绍了AgentBank,一个迄今为止最大的轨迹微调数据集,包含超过5万条高质量的交互轨迹,涵盖16个任务和五个不同的Agent技能维度。通过一种新颖的标注流程,该数据集能够扩展标注轨迹并最大限度地减少难度偏差。此外,研究人员在AgentBank上对LLM进行微调,得到了一系列Agent模型,名为Samoyed。对比实验表明,扩展交互轨迹数据对于获得通用Agent能力是有效的。其他研究也揭示了关于轨迹微调和Agent技能泛化的一些关键观察结果。

🔬 方法详解

问题定义:现有的大语言模型(LLM)Agent在面对复杂和多样化的环境时,泛化能力不足。主要痛点在于缺乏足够规模和高质量的Agent-环境交互轨迹数据,导致模型难以学习到通用的Agent技能。现有的数据集可能存在难度偏差,影响模型的训练效果。

核心思路:论文的核心思路是通过构建一个大规模、高质量的Agent-环境交互轨迹数据集AgentBank,并在此基础上对LLM进行微调,从而提升LLM Agent的通用能力。通过精心设计的标注流程,减少数据集的难度偏差,确保模型能够学习到更具泛化性的知识。

技术框架:AgentBank的构建主要包含数据收集和标注两个阶段。数据收集阶段涵盖16个任务,覆盖五个Agent技能维度。标注阶段采用新颖的标注流程,旨在扩展标注轨迹并减少难度偏差。然后,使用AgentBank数据集对LLM进行微调,得到一系列Agent模型,命名为Samoyed。最后,通过对比实验评估Samoyed模型的性能。

关键创新:AgentBank数据集是最大的Agent-环境交互轨迹数据集,其规模和多样性是关键创新点。此外,新颖的标注流程能够有效减少难度偏差,保证数据的质量。通过在AgentBank上微调LLM,验证了大规模交互轨迹数据对于提升Agent通用能力的重要性。

关键设计:AgentBank数据集包含超过5万条交互轨迹,涵盖16个任务和五个Agent技能维度。具体的任务和技能维度选择未知。标注流程的具体细节未知,但其目标是扩展标注轨迹并减少难度偏差。微调LLM的具体参数设置、损失函数和网络结构等技术细节未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,通过在AgentBank数据集上微调LLM,可以显著提升Agent的通用能力。具体性能数据和对比基线未知,但论文强调了扩展交互轨迹数据对于获得通用Agent能力的重要性。此外,研究还揭示了关于轨迹微调和Agent技能泛化的一些关键观察结果,为未来的研究提供了指导。

🎯 应用场景

该研究成果可应用于各种需要智能Agent与环境交互的领域,例如游戏AI、智能助手、机器人控制等。通过提供大规模高质量的训练数据,可以加速LLM Agent的开发和部署,提升Agent的智能化水平和泛化能力,从而在实际应用中发挥更大的作用。

📄 摘要(原文)

Fine-tuning on agent-environment interaction trajectory data holds significant promise for surfacing generalized agent capabilities in open-source large language models (LLMs). In this work, we introduce AgentBank, by far the largest trajectory tuning data collection featuring more than 50k diverse high-quality interaction trajectories which comprises 16 tasks covering five distinct agent skill dimensions. Leveraging a novel annotation pipeline, we are able to scale the annotated trajectories and generate a trajectory dataset with minimized difficulty bias. Furthermore, we fine-tune LLMs on AgentBank to get a series of agent models, Samoyed. Our comparative experiments demonstrate the effectiveness of scaling the interaction trajectory data to acquire generalized agent capabilities. Additional studies also reveal some key observations regarding trajectory tuning and agent skill generalization.