Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text
作者: Zhihao Xu, Rumei Li, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xunliang Cai, Xiting Wang
分类: cs.CL
发布日期: 2026-01-15
💡 一句话要点
提出GEM:一种从文本合成工具使用轨迹的方法,提升LLM多轮交互能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工具使用 大型语言模型 数据合成 多轮交互 文本挖掘
📋 核心要点
- 现有方法缺乏多样且真实的工具使用数据,限制了LLM在多轮交互中有效利用工具的能力。
- 提出GEM,一种基于文本的数据合成流程,从文本语料库中提取多轮工具使用轨迹,作为一种可扩展的数据来源。
- 实验表明,GEM-32B在BFCL V3多轮基准测试中提升了16.5%,并展现出优于领域内训练模型的泛化能力。
📝 摘要(中文)
本文提出了一种基于文本的新范式,旨在解决大型语言模型(LLM)在多轮交互中有效利用工具的难题。观察到文本语料库自然包含丰富的多步骤问题解决经验,可作为多轮工具使用任务的未经开发的、可扩展且真实的数据源。为此,我们引入了GEM,一个数据合成流程,通过四个阶段从文本语料库生成和提取多轮工具使用轨迹:相关性过滤、工作流程和工具提取、轨迹对齐和复杂度细化。为了降低计算成本,我们进一步通过监督微调训练了一个专门的轨迹合成器。该模型将复杂的生成流程提炼成一个高效的端到端轨迹生成器。实验表明,我们的GEM-32B在BFCL V3多轮基准测试中取得了16.5%的改进。我们的模型在一定程度上超过了在τ-bench(航空和零售)领域内数据上训练的模型的性能,突出了我们基于文本的合成范式所带来的卓越泛化能力。值得注意的是,我们的轨迹合成器在显著降低推理延迟和成本的同时,匹配了完整流程的质量。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多轮交互中有效利用工具的难题。现有方法面临的痛点是缺乏多样且真实的工具使用数据,这限制了LLM在复杂任务中的应用。获取高质量的多轮工具使用数据成本高昂,阻碍了相关研究的进展。
核心思路:论文的核心思路是从文本语料库中挖掘隐含的工具使用经验。文本数据中蕴含着丰富的多步骤问题解决过程,这些过程可以被转化为工具使用轨迹。通过从文本中提取和合成工具使用轨迹,可以低成本地生成大规模的训练数据,从而提升LLM的工具使用能力。
技术框架:GEM数据合成流程包含四个主要阶段:1) 相关性过滤:筛选与工具使用相关的文本;2) 工作流程和工具提取:从文本中提取工具和操作步骤;3) 轨迹对齐:将提取的工具和步骤与实际的工具使用轨迹对齐;4) 复杂度细化:调整生成轨迹的复杂度,使其更符合实际应用场景。此外,为了提高效率,论文还训练了一个轨迹合成器,将整个流程提炼成一个端到端的生成模型。
关键创新:论文的关键创新在于提出了基于文本的工具使用轨迹合成范式。与传统的依赖人工标注或模拟环境生成数据的方法不同,该方法利用了海量的文本数据,可以低成本地生成多样且真实的训练数据。此外,轨迹合成器的引入显著提高了数据生成的效率。
关键设计:在相关性过滤阶段,使用关键词和语义相似度等方法筛选文本。在工作流程和工具提取阶段,使用命名实体识别和关系抽取等技术提取工具和操作步骤。在轨迹对齐阶段,使用动态规划等算法将提取的工具和步骤与实际的工具使用轨迹对齐。轨迹合成器采用Transformer架构,通过监督学习的方式进行训练,损失函数为交叉熵损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GEM-32B在BFCL V3多轮基准测试中取得了16.5%的性能提升,超过了在τ-bench(航空和零售)领域内数据上训练的模型的性能。此外,轨迹合成器在显著降低推理延迟和成本的同时,匹配了完整流程的质量,证明了该方法的有效性和高效性。
🎯 应用场景
该研究成果可广泛应用于智能助手、自动化客服、机器人控制等领域。通过提升LLM的工具使用能力,可以构建更智能、更高效的自动化系统,从而提高生产效率和服务质量。未来,该方法可以扩展到更多领域,例如医疗诊断、金融分析等,为各行各业带来智能化变革。
📄 摘要(原文)
Enabling Large Language Models (LLMs) to effectively utilize tools in multi-turn interactions is essential for building capable autonomous agents. However, acquiring diverse and realistic multi-turn tool-use data remains a significant challenge. In this work, we propose a novel text-based paradigm. We observe that textual corpora naturally contain rich, multi-step problem-solving experiences, which can serve as an untapped, scalable, and authentic data source for multi-turn tool-use tasks. Based on this insight, we introduce GEM, a data synthesis pipeline that enables the generation and extraction of multi-turn tool-use trajectories from text corpora through a four-stage process: relevance filtering, workflow & tool extraction, trajectory grounding, and complexity refinement. To reduce the computational cost, we further train a specialized Trajectory Synthesizer via supervised fine-tuning. This model distills the complex generation pipeline into an efficient, end-to-end trajectory generator. Experiments demonstrate that our GEM-32B achieve a 16.5% improvement on the BFCL V3 Multi-turn benchmark. Our models partially surpass the performance of models trained on τ - bench (Airline and Retail) in-domain data, highlighting the superior generalization capability derived from our text-based synthesis paradigm. Notably, our Trajectory Synthesizer matches the quality of the full pipeline while significantly reducing inference latency and costs.