Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training

📄 arXiv: 2502.06589v1 📥 PDF

作者: Yuchen Zhuang, Jingfeng Yang, Haoming Jiang, Xin Liu, Kewei Cheng, Sanket Lokegaonkar, Yifan Gao, Qing Ping, Tianyi Liu, Binxuan Huang, Zheng Li, Zhengyang Wang, Pei Chen, Ruijie Wang, Rongzhi Zhang, Nasser Zalmout, Priyanka Nigam, Bing Yin, Chao Zhang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-10

备注: Accepted to NAACL 2025 main conference


💡 一句话要点

Hephaestus:通过持续预训练提升大语言模型智能体的基础能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 智能体 持续预训练 API调用 推理规划

📋 核心要点

  1. 现有LLM智能体依赖复杂prompt或微调,但缺乏有效引入新能力并保持泛化性的方法。
  2. 论文提出Hephaestus-Forge,一个大规模预训练语料库,专注于API调用、推理规划和环境适应。
  3. Hephaestus通过持续预训练,在智能体基准测试中超越开源模型,媲美商业模型,验证了有效性。

📝 摘要(中文)

由于面向智能体的预训练数据稀缺,基于LLM的自主智能体通常依赖于复杂的提示或广泛的微调,但这些方法通常无法引入新能力,同时保持强大的泛化性。我们推出了Hephaestus-Forge,这是第一个大规模预训练语料库,旨在增强LLM智能体在API函数调用、内在推理和规划以及适应环境反馈方面的基本能力。Hephaestus-Forge包含103B的智能体特定数据,涵盖76,537个API,包括用于引入API函数知识的工具文档和用于加强内在推理的函数调用轨迹。为了探索有效的训练协议,我们研究了缩放定律,以确定数据混合比例的最佳配方。通过在Hephaestus-Forge上进行持续预训练,Hephaestus在三个智能体基准测试中优于中小型开源LLM,并与商业LLM相媲美,证明了我们的预训练语料库在增强LLM的基本智能体能力和泛化到新任务或环境方面的有效性。

🔬 方法详解

问题定义:现有的大语言模型智能体在API函数调用、内在推理和规划以及适应环境反馈等基本能力方面存在不足。主要痛点在于缺乏大规模、高质量的智能体特定预训练数据,导致模型需要依赖复杂的prompt工程或大量的微调,而这些方法难以在引入新能力的同时保持良好的泛化性能。

核心思路:论文的核心思路是通过构建一个大规模的智能体特定预训练语料库Hephaestus-Forge,并利用该语料库对大语言模型进行持续预训练,从而直接提升模型在API函数调用、内在推理和规划等方面的能力。这种方法避免了对prompt工程或微调的过度依赖,旨在从根本上增强模型的基础能力。

技术框架:整体框架包括两个主要部分:首先是构建Hephaestus-Forge语料库,该语料库包含工具文档和函数调用轨迹等数据,涵盖了大量的API信息。其次是利用Hephaestus-Forge对大语言模型进行持续预训练,通过调整数据混合比例等超参数,优化训练效果。

关键创新:最重要的技术创新点在于Hephaestus-Forge语料库的构建,它是一个大规模、高质量的智能体特定预训练数据集,包含了丰富的API信息和函数调用轨迹。与以往的通用预训练数据相比,Hephaestus-Forge更专注于提升智能体的特定能力。

关键设计:论文通过研究缩放定律来确定数据混合比例的最佳配方,这是一种关键的设计选择。具体来说,论文分析了不同类型数据(例如工具文档和函数调用轨迹)对模型性能的影响,并根据实验结果调整了它们在预训练过程中的比例。此外,论文还可能涉及损失函数的选择、网络结构的调整等技术细节,但具体信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Hephaestus在三个智能体基准测试中表现出色,超越了中小型开源LLM,并与商业LLM的性能相媲美。这证明了Hephaestus-Forge预训练语料库在提升LLM的基本智能体能力和泛化到新任务或环境方面的有效性。具体的性能提升幅度未知,但结果表明该方法具有显著的优势。

🎯 应用场景

该研究成果可广泛应用于各种需要智能体自主完成任务的场景,例如自动化软件开发、智能家居控制、智能客服、机器人控制等。通过提升智能体的API调用、推理规划和环境适应能力,可以实现更高效、更智能的自动化解决方案,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

Due to the scarcity of agent-oriented pre-training data, LLM-based autonomous agents typically rely on complex prompting or extensive fine-tuning, which often fails to introduce new capabilities while preserving strong generalizability. We introduce Hephaestus-Forge, the first large-scale pre-training corpus designed to enhance the fundamental capabilities of LLM agents in API function calling, intrinsic reasoning and planning, and adapting to environmental feedback. Hephaestus-Forge comprises 103B agent-specific data encompassing 76,537 APIs, including both tool documentation to introduce knowledge of API functions and function calling trajectories to strengthen intrinsic reasoning. To explore effective training protocols, we investigate scaling laws to identify the optimal recipe in data mixing ratios. By continual pre-training on Hephaestus-Forge, Hephaestus outperforms small- to medium-scale open-source LLMs and rivals commercial LLMs on three agent benchmarks, demonstrating the effectiveness of our pre-training corpus in enhancing fundamental agentic capabilities and generalization of LLMs to new tasks or environments.