xLAM: A Family of Large Action Models to Empower AI Agent Systems
作者: Jianguo Zhang, Tian Lan, Ming Zhu, Zuxin Liu, Thai Hoang, Shirley Kokane, Weiran Yao, Juntao Tan, Akshara Prabhakar, Haolin Chen, Zhiwei Liu, Yihao Feng, Tulika Awalgaonkar, Rithesh Murthy, Eric Hu, Zeyuan Chen, Ran Xu, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-09-05
备注: Technical report for the Salesforce xLAM model series
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
发布xLAM系列大型动作模型,提升AI Agent系统性能并开源
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型动作模型 AI Agent 工具使用 开源模型 混合专家模型
📋 核心要点
- 现有开源社区在开发Agent专用模型时面临高质量数据集稀缺和缺乏标准协议的挑战。
- xLAM通过统一、增强和合成多样数据集,训练了一系列大型动作模型,提升Agent的泛化性和性能。
- 实验表明,xLAM在多个Agent能力基准测试中表现出色,并在伯克利函数调用排行榜上排名第一。
📝 摘要(中文)
本文介绍并公开发布xLAM,一系列专为AI Agent任务设计的大型动作模型。xLAM系列包含五个模型,具有稠密和混合专家架构,参数规模从10亿到8x220亿不等。这些模型使用可扩展、灵活的流水线进行训练,该流水线统一、增强和合成各种数据集,以提高AI Agent在不同环境中的泛化性和性能。实验结果表明,xLAM在多个Agent能力基准测试中始终表现出色,尤其是在伯克利函数调用排行榜上名列第一,在工具使用方面优于GPT-4、Claude-3和许多其他模型。通过发布xLAM系列,旨在提升开源LLM在自主AI Agent方面的性能,从而加速该领域的进展并普及高性能Agent任务模型。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)在应用于AI Agent系统时,面临着缺乏高质量Agent数据集和标准协议的问题,这限制了开源社区开发专用Agent模型的能力。现有方法难以在各种环境中实现良好的泛化性和性能,尤其是在工具使用方面。
核心思路:xLAM的核心思路是通过构建一个可扩展、灵活的训练流水线,统一、增强和合成各种数据集,从而提升AI Agent的泛化性和性能。通过训练一系列不同规模和架构的模型,xLAM旨在为开源社区提供高性能的Agent模型。
技术框架:xLAM的技术框架主要包含数据处理流水线和模型训练两部分。数据处理流水线负责收集、清洗、增强和合成各种Agent相关的数据集。模型训练部分则使用这些数据训练一系列不同规模(1B到8x22B参数)和架构(稠密和混合专家)的大型动作模型。整个框架旨在实现可扩展性和灵活性,以便适应不同的Agent任务和环境。
关键创新:xLAM的关键创新在于其数据处理流水线,该流水线能够有效地利用各种来源的数据,并通过数据增强和合成技术来提升数据的质量和多样性。此外,xLAM还探索了不同规模和架构的模型对Agent性能的影响,为未来的模型设计提供了参考。
关键设计:xLAM的关键设计包括:1) 数据增强策略,例如使用LLM生成新的训练样本;2) 混合专家架构,用于提升模型的容量和表达能力;3) 损失函数的设计,旨在优化模型在工具使用等方面的性能;4) 模型规模的选择,平衡了性能和计算成本。
🖼️ 关键图片
📊 实验亮点
xLAM在多个Agent能力基准测试中表现出色,尤其是在伯克利函数调用排行榜上名列第一,在工具使用方面优于GPT-4、Claude-3和许多其他模型。这表明xLAM在解决实际Agent任务方面具有很强的竞争力,并为开源社区提供了一个有价值的参考。
🎯 应用场景
xLAM系列模型可广泛应用于各种AI Agent系统,例如智能助手、自动化工具、机器人控制等。通过提供高性能的开源Agent模型,xLAM有望加速AI Agent技术的发展,并促进其在各个领域的应用,例如智能家居、自动驾驶、客户服务等。未来,xLAM还可以扩展到支持多模态输入和输出,以适应更复杂的Agent任务。
📄 摘要(原文)
Autonomous agents powered by large language models (LLMs) have attracted significant research interest. However, the open-source community faces many challenges in developing specialized models for agent tasks, driven by the scarcity of high-quality agent datasets and the absence of standard protocols in this area. We introduce and publicly release xLAM, a series of large action models designed for AI agent tasks. The xLAM series includes five models with both dense and mixture-of-expert architectures, ranging from 1B to 8x22B parameters, trained using a scalable, flexible pipeline that unifies, augments, and synthesizes diverse datasets to enhance AI agents' generalizability and performance across varied environments. Our experimental results demonstrate that xLAM consistently delivers exceptional performance across multiple agent ability benchmarks, notably securing the 1st position on the Berkeley Function-Calling Leaderboard, outperforming GPT-4, Claude-3, and many other models in terms of tool use. By releasing the xLAM series, we aim to advance the performance of open-source LLMs for autonomous AI agents, potentially accelerating progress and democratizing access to high-performance models for agent tasks. Models are available at https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4