DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
作者: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin
分类: cs.CL, cs.LG
发布日期: 2025-04-02 (更新: 2025-07-14)
备注: Accepted to SIGDIAL 2025
💡 一句话要点
DiaTool-DPO:用于工具增强大语言模型的多轮直接偏好优化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工具增强大语言模型 多轮对话 直接偏好优化 马尔可夫决策过程 对话控制
📋 核心要点
- 现有工具增强大语言模型在处理复杂或不明确的用户查询时存在不足,依赖人工标注和专家经验。
- DiaTool-DPO通过直接偏好优化,自动构建配对轨迹数据集,并设计专门的对话控制损失函数,提升模型对话能力。
- 实验结果表明,DiaTool-DPO在信息收集和工具调用拒绝方面显著优于基线,性能接近GPT-4o。
📝 摘要(中文)
工具增强大语言模型(TA-LLMs)在实际应用中展现了潜力,但在处理不完整查询和超出范围的请求时面临挑战。现有方法主要依赖于使用专家轨迹的监督微调,而我们提出了DiaTool-DPO,一种通过直接偏好优化增强TA-LLM对话能力的新方法。我们将TA-LLM交互建模为一个具有5个不同对话状态的马尔可夫决策过程,并根据状态转移轨迹将用户查询分为3种类型。我们自动构建正确和不正确对话流程的配对轨迹数据集,并引入了专门用于对话控制的目标损失。综合评估表明,DiaTool-DPO接近GPT-4o的性能(信息收集方面为94.8%,工具调用拒绝方面为91%),与基线相比有显著改进(分别为44%和9.6%),同时保持了核心功能。我们的方法为开发能够处理各种实际场景的TA-LLM开辟了新的可能性,而无需额外的专家演示或人工标注。
🔬 方法详解
问题定义:论文旨在解决工具增强大语言模型(TA-LLMs)在多轮对话中处理复杂、不完整或超出范围的用户查询时表现不佳的问题。现有方法主要依赖于监督微调,需要大量人工标注的专家轨迹,成本高昂且泛化能力有限。此外,现有方法难以有效区分和处理不同类型的用户查询,导致对话流程控制不佳。
核心思路:论文的核心思路是利用直接偏好优化(DPO)来提升TA-LLM的对话能力,避免对专家轨迹的依赖。通过将TA-LLM的交互建模为马尔可夫决策过程,并自动构建正确和不正确对话流程的配对轨迹数据集,DPO能够直接优化模型的策略,使其更倾向于生成符合用户意图的对话。
技术框架:DiaTool-DPO的技术框架主要包含以下几个步骤:1) 将TA-LLM交互建模为具有5个不同对话状态的马尔可夫决策过程。2) 根据状态转移轨迹将用户查询分为3种类型。3) 自动构建正确和不正确对话流程的配对轨迹数据集。4) 使用DPO算法,基于配对轨迹数据优化TA-LLM的策略。5) 引入专门用于对话控制的目标损失,进一步提升模型在多轮对话中的表现。
关键创新:该论文的关键创新在于:1) 提出了DiaTool-DPO,一种基于直接偏好优化的TA-LLM对话能力提升方法,无需人工标注的专家轨迹。2) 将TA-LLM交互建模为马尔可夫决策过程,并根据状态转移轨迹对用户查询进行分类,为对话控制提供了更精细的粒度。3) 自动构建配对轨迹数据集,降低了数据标注成本。4) 引入专门用于对话控制的目标损失,进一步提升了模型在多轮对话中的表现。
关键设计:论文的关键设计包括:1) 马尔可夫决策过程的状态定义,包括用户意图理解、工具选择、工具调用、结果呈现和对话结束等5个状态。2) 用户查询的分类标准,根据状态转移轨迹将查询分为信息请求、工具调用请求和超出范围请求等3种类型。3) 配对轨迹数据集的构建方法,通过比较不同对话流程的奖励值来确定正确和不正确的轨迹。4) 对话控制损失函数的设计,旨在惩罚不符合用户意图的对话流程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DiaTool-DPO在信息收集方面达到了94.8%的准确率,在工具调用拒绝方面达到了91%的准确率,接近GPT-4o的性能。与基线模型相比,信息收集准确率提升了44%,工具调用拒绝准确率提升了9.6%。这些结果表明,DiaTool-DPO能够显著提升TA-LLM在多轮对话中的表现,使其更好地处理复杂的用户查询。
🎯 应用场景
DiaTool-DPO可应用于各种需要工具增强大语言模型进行多轮对话的场景,例如智能客服、虚拟助手、智能家居控制等。该方法能够提升模型在复杂交互中的表现,使其更好地理解用户意图,并利用工具完成任务。未来,该研究可以扩展到更复杂的任务和领域,例如医疗诊断、金融分析等,具有广阔的应用前景。
📄 摘要(原文)
Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in real-world applications, but face challenges in handling incomplete queries and out-of-scope requests. While existing approaches rely mainly on Supervised Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method that enhances TA-LLM's dialogue capabilities through Direct Preference Optimization. We model TA-LLM interactions as a Markov Decision Process with 5 distinct dialogue states and categorize user queries into 3 types based on their state transition trajectories. We automatically construct paired trajectory datasets of correct and incorrect dialogue flows and introduce a specialized objective loss for dialogue control. Our comprehensive evaluation demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in information gathering, 91% in tool call rejection) with substantial improvements over baseline (44% and 9.6% respectively) while maintaining core functionality. Our approach opens new possibilities for developing TA-LLMs that can handle diverse real-world scenarios without requiring additional expert demonstrations or human labeling.