FunReason-MT Technical Report: Advanced Data Synthesis Solution for Real-world Multi-Turn Tool-use

📄 arXiv: 2510.24645v2 📥 PDF

作者: Zengzhuang Xu, Bingguang Hao, Zechuan Wang, Yuntao Wen, Xinyi Xu, Yang Liu, Long Chen, Dong Wang, Maolin Wang, Tong Zhao, Yicheng Chen, Cunyin Peng, Jinjie Gu, Leilei Gan, Xiangyu Zhao, Chenyi Zhuang, Shi Gu

分类: cs.AI

发布日期: 2025-10-28 (更新: 2025-11-16)


💡 一句话要点

FunReason-MT:面向真实世界多轮工具使用的高级数据合成方案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 函数调用 多轮对话 数据合成 工具使用 大型语言模型

📋 核心要点

  1. 现有数据合成方法难以生成高质量多轮工具使用数据,面临有针对性合成、困难查询构建和多轮逻辑依赖等挑战。
  2. FunReason-MT通过环境-API图交互、高级工具-查询合成和引导迭代链,解决了多轮函数调用数据合成的复杂性问题。
  3. 实验表明,基于FunReason-MT生成的数据训练的4B模型在BFCLv3上取得了同等规模模型中最先进的性能,并在BFCLv4上进一步提升。

📝 摘要(中文)

函数调用(FC)使大型语言模型(LLMs)和自主代理能够与外部工具交互,这是解决复杂、真实世界问题的关键能力。随着这种能力在先进人工智能系统中变得越来越重要,对高质量、多轮训练数据的需求也日益增长,以开发和完善它。现有的数据合成方法,如随机环境采样或多代理角色扮演,不足以在真实世界环境中生成高质量的数据。实际挑战包括:有针对性的数据合成、困难查询构建和多轮逻辑依赖。为了解决这些结构性缺陷,我们提出了FunReason-MT,一种用于真实世界多轮工具使用的新型数据合成框架。FunReason-MT通过采用1)环境-API图交互来收集具有针对性工具的各种高质量轨迹,2)高级工具-查询合成来简化困难查询构建,以及3)用于复杂CoT生成的引导迭代链,从而解决了多轮FC数据中的复杂性障碍。在Berkeley Function-Calling Leaderboard (BFCLv3)上的评估表明了我们框架的强大之处:一个基于FunReason-MT生成的数据构建的4B模型在同等规模的模型中实现了最先进的性能。BFCLv4上的进一步性能改进证实了FunReason-MT为代理学习提供了一个可靠而强大的来源。

🔬 方法详解

问题定义:论文旨在解决真实世界场景下,多轮工具使用数据合成的难题。现有方法,如随机环境采样和多智能体角色扮演,无法有效生成高质量、具有针对性的数据,难以应对复杂查询和多轮逻辑依赖,导致模型在实际应用中表现不佳。

核心思路:FunReason-MT的核心思路是构建一个能够模拟真实世界交互环境的数据合成框架,通过有针对性的工具选择、困难查询生成和迭代式的推理链构建,生成高质量的多轮工具使用数据,从而提升模型在复杂任务中的表现。

技术框架:FunReason-MT框架包含三个主要模块:1) 环境-API图交互:构建环境和API之间的交互图,用于收集高质量的轨迹数据,并有针对性地选择工具。2) 高级工具-查询合成:简化困难查询的构建过程,生成更具挑战性的查询,以提高模型的泛化能力。3) 引导迭代链:通过引导迭代的方式生成复杂的CoT(Chain-of-Thought)推理过程,模拟真实世界中的多轮交互和逻辑依赖。

关键创新:FunReason-MT的关键创新在于其综合考虑了数据合成的三个核心挑战:有针对性、难度和逻辑依赖,并分别提出了相应的解决方案。与现有方法相比,FunReason-MT能够更有效地生成高质量、多样化的多轮工具使用数据,从而显著提升模型的性能。

关键设计:具体的技术细节包括:环境-API图的构建方式、工具选择策略、查询生成算法、CoT生成过程中的引导机制等。论文中可能涉及一些超参数的设置,例如迭代链的长度、查询的复杂度等,这些参数需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FunReason-MT框架在Berkeley Function-Calling Leaderboard (BFCLv3)上进行了评估,结果表明,基于FunReason-MT生成的数据训练的4B模型在同等规模的模型中取得了最先进的性能。此外,在BFCLv4上的进一步性能改进也证实了FunReason-MT为代理学习提供了一个可靠而强大的数据来源。这些实验结果充分证明了FunReason-MT框架的有效性和优越性。

🎯 应用场景

FunReason-MT的研究成果可广泛应用于智能助手、自动化流程、机器人控制等领域。通过生成高质量的多轮工具使用数据,可以显著提升这些应用在复杂任务中的表现,例如自动预订机票、智能家居控制、以及工业机器人协同作业等,从而提高效率和用户体验。未来,该技术有望推动人工智能在更多实际场景中的应用。

📄 摘要(原文)

Function calling (FC) empowers large language models (LLMs) and autonomous agents to interface with external tools, a critical capability for solving complex, real-world problems. As this ability becomes increasingly central to advanced AI systems, the need for high-quality, multi-turn training data to develop and refine it cannot be overstated. Existing data synthesis methods, such as random environment sampling or multi-agent role-playing, are not powerful enough to generate high-quality data in real-world environments. Practical challenges come in three folds: targeted data synthesis, hard query construction, and multi-turn logical dependency. To address these structural deficiencies, we present FunReason-MT, a novel data synthesis framework for real-world multi-turn tool use. FunReason-MT resolves the complexity barrier in multi-turn FC data by employing 1) Environment-API Graph Interactions to gather varied high-quality trajectories with targeted tool, 2) Advanced Tool-Query Synthesis to simplify hard query construction, and 3) Guided Iterative Chain for sophisticated CoT generation. Evaluations on Berkeley Function-Calling Leaderboard (BFCLv3) demonstrate the power of our framework: a 4B model built upon FunReason-MT generated data achieves state-of-the-art performance among comparable-sized models. Further performance improvements on BFCLv4 confirm that FunReason-MT provides a reliable and robust source for agentic learning.