Magnet: Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation
作者: Fan Yin, Zifeng Wang, I-Hung Hsu, Jun Yan, Ke Jiang, Yanfei Chen, Jindong Gu, Long T. Le, Kai-Wei Chang, Chen-Yu Lee, Hamid Palangi, Tomas Pfister
分类: cs.CL
发布日期: 2025-03-10
备注: 12 pages, 3 figures, 4 tables
💡 一句话要点
Magnet:通过图翻译合成和提炼多轮工具使用数据,提升LLM函数调用能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多轮对话 工具使用 函数调用 图翻译 数据合成 上下文蒸馏 偏好优化
📋 核心要点
- 现有LLM在复杂多轮交互中,利用外部工具解决用户查询的能力受限,缺乏高质量的训练数据。
- Magnet框架通过图翻译自动生成高质量多轮对话训练数据,包含正向和负向提示,提升模型函数调用能力。
- 实验表明,Magnet-14B-mDPO模型在BFCL-v3和ToolQuery数据集上显著超越了Gemini-1.5-pro-002模型。
📝 摘要(中文)
大型语言模型(LLMs)已经展现出有效利用外部工具来解决用户查询的能力。然而,在涉及用户和多个工具的复杂多轮交互中,它们的性能可能会受到限制。为了解决这个问题,我们提出了Magnet,这是一个原则性的框架,用于合成高质量的训练轨迹,以增强大型语言模型代理在与人类进行多轮对话中的函数调用能力。该框架基于从函数签名路径到查询序列和可执行函数调用的自动和迭代翻译。我们使用图来建模多轮情况下的复杂函数交互,并设计了新颖的节点操作来构建可靠的签名路径。受上下文蒸馏的启发,在使用教师模型指导生成正负轨迹时,我们在上下文中提供参考函数调用序列作为正向提示,并提供对比的、不正确的函数调用作为负向提示。实验表明,通过使用正向轨迹进行监督微调,并针对负向轨迹进行偏好优化,我们的14B模型Magnet-14B-mDPO在BFCL-v3上获得了68.01,在ToolQuery上获得了73.30,在函数调用方面大大超过了教师模型Gemini-1.5-pro-002的性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂多轮对话场景下,工具使用能力不足的问题。现有的方法难以生成高质量的多轮交互训练数据,导致模型在处理复杂任务时性能下降。特别是,如何有效地模拟用户与多个工具之间的复杂交互,并生成既包含正确示范又包含错误示范的训练数据,是一个关键挑战。
核心思路:论文的核心思路是通过图翻译技术,自动生成高质量的多轮对话训练数据。具体来说,首先构建一个表示函数签名交互的图,然后通过图上的节点操作生成不同的函数调用路径。接着,将这些函数调用路径翻译成用户查询和可执行的函数调用序列。为了提高训练数据的质量,论文还采用了上下文蒸馏的思想,利用教师模型生成正向和负向提示,引导学生模型学习。
技术框架:Magnet框架主要包含以下几个模块:1) 函数签名图构建模块:用于构建表示函数之间交互关系的图结构。2) 图翻译模块:用于将函数签名图翻译成用户查询和函数调用序列。3) 上下文蒸馏模块:利用教师模型生成正向和负向提示,用于指导学生模型的训练。4) 训练模块:使用监督微调和偏好优化等技术,训练学生模型。整体流程是从函数签名图开始,通过图翻译生成训练数据,然后利用上下文蒸馏和训练模块,提升模型的函数调用能力。
关键创新:论文的关键创新在于提出了基于图翻译的多轮工具使用数据合成方法。与传统的数据生成方法相比,该方法能够更好地模拟复杂的多轮交互过程,并生成包含正向和负向提示的高质量训练数据。此外,论文还提出了新颖的节点操作,用于构建可靠的函数签名路径。
关键设计:在图构建方面,论文设计了特定的节点操作,例如添加、删除和替换节点,以生成不同的函数调用路径。在上下文蒸馏方面,论文使用了教师模型生成正向的参考函数调用序列和负向的错误函数调用序列,作为训练的提示信息。在训练方面,论文采用了监督微调和偏好优化相结合的方法,其中偏好优化使用 mDPO 算法,以更好地学习正向和负向提示之间的差异。
🖼️ 关键图片
📊 实验亮点
Magnet-14B-mDPO模型在BFCL-v3数据集上取得了68.01的成绩,在ToolQuery数据集上取得了73.30的成绩,显著超越了教师模型Gemini-1.5-pro-002的性能。这表明通过图翻译合成和提炼多轮工具使用数据,可以有效提升LLM的函数调用能力。实验结果充分验证了Magnet框架的有效性。
🎯 应用场景
该研究成果可应用于智能助手、自动化客服、智能家居等领域,提升LLM在复杂任务中的工具使用能力,实现更自然、高效的人机交互。通过自动生成高质量训练数据,降低了模型训练的成本,加速了LLM在实际场景中的部署和应用。未来,该方法有望扩展到更多领域,例如机器人控制、软件开发等。
📄 摘要(原文)
Large language models (LLMs) have exhibited the ability to effectively utilize external tools to address user queries. However, their performance may be limited in complex, multi-turn interactions involving users and multiple tools. To address this, we propose Magnet, a principled framework for synthesizing high-quality training trajectories to enhance the function calling capability of large language model agents in multi-turn conversations with humans. The framework is based on automatic and iterative translations from a function signature path to a sequence of queries and executable function calls. We model the complicated function interactions in multi-turn cases with graph and design novel node operations to build reliable signature paths. Motivated by context distillation, when guiding the generation of positive and negative trajectories using a teacher model, we provide reference function call sequences as positive hints in context and contrastive, incorrect function calls as negative hints. Experiments show that training with the positive trajectories with supervised fine-tuning and preference optimization against negative trajectories, our 14B model, Magnet-14B-mDPO, obtains 68.01 on BFCL-v3 and 73.30 on ToolQuery, surpassing the performance of the teacher model Gemini-1.5-pro-002 by a large margin in function calling.