Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

作者: Ashutosh Hathidara, Julien Yu, Sebastian Schreiber

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-07-04 (更新: 2025-10-09)

💡 一句话要点

DiaFORGE微调框架提升企业工具调用LLM的真实性和安全性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工具调用 大型语言模型 微调 企业API 消歧义

📋 核心要点

现有LLM在企业API调用中，难以区分相似工具和处理参数不明确的情况，导致调用失败。
DiaFORGE框架通过合成多轮对话，并进行监督微调，使LLM具备更强的工具消歧能力。
实验表明，使用DiaFORGE训练的模型在工具调用成功率上显著优于GPT-4o和Claude-3.5-Sonnet。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地被用于调用企业API，但当近乎重复的工具竞争同一用户意图或所需参数未被充分指定时，它们经常会失败。我们引入了DiaFORGE（Dialogue Framework for Organic Response Generation & Evaluation），这是一个以消除歧义为中心的三阶段流程，它（i）合成角色驱动的多轮对话，其中助手必须区分高度相似的工具，（ii）使用3B-70B参数的推理轨迹对开源模型进行监督微调，以及（iii）通过动态套件评估真实世界的准备情况，该套件在实时代理循环中重新部署每个模型，并报告端到端的目标完成情况以及传统的静态指标。在我们的动态基准DiaBENCH上，使用DiaFORGE训练的模型在优化的提示下，工具调用成功率比GPT-4o提高了27个百分点，比Claude-3.5-Sonnet提高了49个百分点。为了促进进一步的研究，我们发布了一个包含5000个生产级企业API规范的开放语料库，并配有经过严格验证的、以消除歧义为中心的对话，为构建可靠的、企业就绪的工具调用代理提供了一个实用的蓝图。

🔬 方法详解

问题定义：现有的大型语言模型在企业级应用中，尤其是在工具调用方面，面临着歧义性问题。具体来说，当存在多个功能相似的API工具时，模型难以准确判断用户意图并选择正确的工具。此外，当用户提供的参数信息不完整或模糊时，模型也难以进行有效的工具调用。这些问题导致工具调用成功率低，影响了LLM在企业环境中的实际应用价值。

核心思路：论文的核心思路是构建一个以消除歧义为中心的微调框架DiaFORGE。该框架通过生成包含歧义的多轮对话数据，并利用这些数据对LLM进行微调，从而提高模型在复杂场景下的工具调用能力。通过模拟真实世界中可能出现的各种歧义情况，使模型能够更好地理解用户意图，并选择合适的工具和参数。

技术框架：DiaFORGE框架包含三个主要阶段：（1）对话合成阶段：生成包含歧义的多轮对话数据，其中助手需要区分高度相似的工具。（2）监督微调阶段：使用生成的对话数据，对开源LLM进行监督微调，并记录推理过程。（3）动态评估阶段：将微调后的模型部署到实时代理循环中，通过动态基准DiaBENCH评估模型的端到端目标完成情况。

关键创新：该论文的关键创新在于提出了一个以消除歧义为中心的微调框架DiaFORGE，并构建了一个包含5000个生产级企业API规范的开放语料库。与传统的微调方法相比，DiaFORGE更加关注模型在复杂场景下的工具调用能力，通过生成包含歧义的对话数据，使模型能够更好地理解用户意图。

关键设计：在对话合成阶段，论文设计了persona-driven的多轮对话生成方法，模拟真实用户与助手之间的交互过程。在监督微调阶段，论文使用了3B-70B参数的开源模型，并记录了推理过程，以便更好地理解模型的行为。在动态评估阶段，论文构建了DiaBENCH基准，用于评估模型在实时代理循环中的性能。

🖼️ 关键图片

📊 实验亮点

在DiaBENCH动态基准测试中，使用DiaFORGE训练的模型在工具调用成功率上显著优于GPT-4o和Claude-3.5-Sonnet。具体来说，相比于经过优化提示的GPT-4o，成功率提升了27个百分点；相比于Claude-3.5-Sonnet，成功率提升了49个百分点。这些结果表明，DiaFORGE框架能够有效提高LLM在复杂场景下的工具调用能力。

🎯 应用场景

该研究成果可广泛应用于企业级智能助手、自动化流程编排、智能客服等领域。通过提高LLM在工具调用方面的准确性和可靠性，可以显著提升工作效率，降低人工成本，并为用户提供更智能、更便捷的服务。未来，该研究有望推动LLM在企业级应用中的普及和发展。

📄 摘要（原文）

Large language models (LLMs) are increasingly tasked with invoking enterprise APIs, yet they routinely falter when near-duplicate tools vie for the same user intent or when required arguments are left underspecified. We introduce DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), a disambiguation-centric, three-stage pipeline that (i) synthesizes persona-driven, multi-turn dialogues in which the assistant must distinguish among highly similar tools, (ii) performs supervised fine-tuning of open-source models with reasoning traces across 3B - 70B parameters, and (iii) evaluates real-world readiness via a dynamic suite that redeploys each model in a live agentic loop and reports end-to-end goal completion alongside conventional static metrics. On our dynamic benchmark DiaBENCH, models trained with DiaFORGE raise tool-invocation success by 27 pp over GPT-4o and by 49 pp over Claude-3.5-Sonnet, both under optimized prompting. To spur further research, we release an open corpus of 5000 production-grade enterprise API specifications paired with rigorously validated, disambiguation-focused dialogues, offering a practical blueprint for building reliable, enterprise-ready tool-calling agents.

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理