Tool Learning Needs Nothing More Than a Free 8B Language Model
作者: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Junqiang Zheng, Saiyong Yang, Yunfang Wu
分类: cs.LG, cs.CL
发布日期: 2026-04-20
备注: Preprint; Work in progress
💡 一句话要点
提出TRUSTEE,利用8B开源语言模型训练工具调用Agent,无需额外数据。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 工具调用 强化学习 语言模型 环境模拟 自适应课程学习
📋 核心要点
- 现有工具调用Agent训练依赖标注数据或商业LM模拟环境,成本高昂且环境固定。
- TRUSTEE利用小型开源LM模拟动态环境,包含任务生成、用户和工具模拟及轨迹评估。
- 实验表明,TRUSTEE在多个领域优于需要额外资源的基线,验证了小型LM的潜力。
📝 摘要(中文)
强化学习(RL)已成为训练工具调用Agent的常用范例,但通常需要在线交互环境。现有方法要么依赖带有ground truth标注的训练数据,要么依赖高级商业语言模型(LM)来合成环境,而这些环境一旦创建就保持固定。本文提出TRUSTEE,一种无需数据的方法,使用完全由免费开源LM(最小可达8B)模拟的动态环境来训练工具调用Agent,包括任务生成、用户模拟、工具模拟和轨迹评估,并结合自适应课程学习机制,在训练过程中动态控制任务难度的各个方面。实验结果表明,TRUSTEE在各个领域都带来了持续的改进,并且优于所有需要额外外部资源进行训练的基线。这些证实,通过足够复杂的设计,即使以本地8B LM为骨干的模拟环境也可以为工具学习设置一个强大的基线,而无需昂贵的标注数据、真实的人工交互、可执行的工具或来自人类专家或商业LM的昂贵的可验证环境。我们希望我们提出的范例能够激发未来在有限资源下进行环境扩展的研究。
🔬 方法详解
问题定义:现有工具调用Agent的训练方法主要依赖两种途径:一是使用带有ground truth标注的数据进行训练,二是利用大型商业语言模型来合成训练环境。这两种方法都存在明显的局限性。标注数据的获取成本高昂,而商业语言模型的使用也增加了训练成本。此外,现有方法合成的训练环境通常是静态的,缺乏动态性和多样性,难以充分训练Agent的泛化能力。
核心思路:TRUSTEE的核心思路是利用小型开源语言模型(例如8B规模的LM)来构建一个完全模拟的动态训练环境。该环境能够自动生成任务、模拟用户行为、模拟工具的功能,并评估Agent的轨迹。通过这种方式,TRUSTEE避免了对标注数据和大型商业语言模型的依赖,降低了训练成本,并提高了训练环境的动态性和多样性。
技术框架:TRUSTEE的整体框架包含以下几个主要模块:1) 任务生成器:使用LM生成各种任务,作为Agent需要解决的问题。2) 用户模拟器:使用LM模拟用户的行为,包括提出问题、提供反馈等。3) 工具模拟器:使用LM模拟工具的功能,Agent可以通过调用这些工具来解决任务。4) 轨迹评估器:评估Agent的行动轨迹,并给出奖励或惩罚。5) 自适应课程学习机制:动态调整任务难度,使Agent能够逐步学习和提高。
关键创新:TRUSTEE最重要的创新点在于它完全依赖小型开源LM来构建训练环境,无需任何人工标注数据或大型商业LM。这种方法极大地降低了训练成本,并提高了训练环境的灵活性和可扩展性。此外,自适应课程学习机制能够有效地引导Agent的学习过程,提高训练效率。
关键设计:TRUSTEE的关键设计包括:1) 使用合适的prompt来引导LM生成高质量的任务、用户行为和工具功能。2) 设计合理的奖励函数,鼓励Agent采取正确的行动。3) 使用自适应课程学习机制,根据Agent的学习进度动态调整任务难度。例如,可以根据Agent的成功率来调整任务的复杂度和多样性。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
TRUSTEE在多个领域的实验结果表明,其性能优于所有需要额外外部资源进行训练的基线方法。这表明,即使使用小型开源LM,也能构建出有效的工具调用Agent训练环境。具体的性能提升幅度和对比基线需要在论文中查找(未知)。
🎯 应用场景
TRUSTEE的潜在应用领域包括智能助手、自动化客服、机器人控制等。该研究的实际价值在于降低了工具调用Agent的训练成本,使得更多研究者和开发者能够参与到相关领域的研究和应用中。未来,该方法可以进一步扩展到更复杂的任务和环境,例如多模态环境、人机协作环境等。
📄 摘要(原文)
Reinforcement learning (RL) has become a prevalent paradigm for training tool calling agents, which typically requires online interactive environments. Existing approaches either rely on training data with ground truth annotations or require advanced commercial language models (LMs) to synthesize environments that keep fixed once created. In this work, we propose TRUSTEE, a data-free method training tool calling agents with dynamic environments fully simulated by free open-source LMs that can be as small as 8B, including task generation, user simulation, tool simulation and trajectory evaluation, paired with an adaptive curriculum learning mechanism that controls various aspects of the task difficulty dynamically during training. Our empirical results show that TRUSTEE brings consistent improvements across various domains and outperforms all the baselines which require extra external resources for training. These confirm that, with a sufficiently sophisticated design, even simulated environments with a local 8B LM as the backbone could set a strong baseline for tool learning, without expensive annotated data, realistic human interactions, executable tools or costly verifiable environments from human experts or commercial LMs. We hope our proposed paradigm could inspire future research on environment scaling with limited resources.