Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model

📄 arXiv: 2502.08820v3 📥 PDF

作者: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur

分类: cs.AI, cs.CL

发布日期: 2025-02-12 (更新: 2025-02-19)


💡 一句话要点

提出CoALM以解决多轮对话与工具使用的统一问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话系统 语言模型 多轮对话 API调用 多任务学习 智能代理 自然语言处理

📋 核心要点

  1. 现有的任务导向对话系统和语言代理在多轮对话管理和复杂功能调用上存在显著不足,无法兼顾两者的能力。
  2. 本文提出CoALM,通过整合对话能力与代理能力,构建了一个统一的模型,旨在解决多轮对话与工具使用的挑战。
  3. 实验结果表明,CoALM在多个基准测试中表现优异,超越了包括GPT-4o在内的领域特定模型,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)具备API调用能力,推动了语言代理(LA)的发展,同时也革新了传统的任务导向对话(TOD)范式。然而,现有方法面临关键困境:TOD系统通常在有限的目标API上训练,需新数据以维持与新服务的接口质量,而LA则未能在多轮对话中保持用户意图。为弥补这一差距,本文提出了CoALM(对话代理语言模型),一种将对话和代理能力整合的统一方法。通过构建多任务数据集CoALM-IT,训练的模型在多个基准测试中超越了顶尖的领域特定模型,展示了单一模型在TOD和LA中的可行性,树立了对话代理的新标准。

🔬 方法详解

问题定义:本文旨在解决现有任务导向对话系统和语言代理在多轮对话管理与API调用能力上的不足。现有方法通常在特定API上训练,缺乏跨领域的适应性,导致在新服务接口时性能下降。

核心思路:论文提出CoALM,通过设计一个统一的模型,结合多轮对话与复杂API调用能力,旨在实现两者的协同工作。该模型通过多任务学习,能够在不同场景中灵活应对用户需求。

技术框架:CoALM的整体架构包括数据预处理、模型训练和评估三个主要阶段。首先,构建了多任务数据集CoALM-IT,随后训练了多个规模的模型(CoALM 8B、CoALM 70B、CoALM 405B),并在多个基准上进行评估。

关键创新:最重要的技术创新在于CoALM的统一性,它能够同时处理多轮对话和复杂的API调用,而不是像传统方法那样专注于单一任务。这种设计使得模型在不同任务间的迁移学习更加高效。

关键设计:在模型训练中,采用了多任务学习的损失函数,结合了对话管理和API调用的目标。此外,模型架构经过精心设计,以确保在处理复杂输入时的高效性和准确性。具体的参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,CoALM在MultiWOZ 2.4、BFCL V3和API-Bank等三个基准测试中均超越了顶尖的领域特定模型,如GPT-4o,展现出显著的性能提升,验证了其作为统一模型的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能客服、个人助理和自动化服务等场景。通过实现多轮对话与工具使用的统一,CoALM能够提升用户体验,减少系统开发和维护的复杂性,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Large Language Models (LLMs) with API-calling capabilities enabled building effective Language Agents (LA), while also revolutionizing the conventional task-oriented dialogue (TOD) paradigm. However, current approaches face a critical dilemma: TOD systems are often trained on a limited set of target APIs, requiring new data to maintain their quality when interfacing with new services, while LAs are not trained to maintain user intent over multi-turn conversations. Because both robust multi-turn management and advanced function calling are crucial for effective conversational agents, we evaluate these skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and API-Bank (LA), and our analyses reveal that specialized approaches excel in one domain but underperform in the other. To bridge this chasm, we introduce CoALM (Conversational Agentic Language Model), a unified approach that integrates both conversational and agentic capabilities. We created CoALM-IT, a carefully constructed multi-task dataset that interleave multi-turn ReAct reasoning with complex API usage. Using CoALM-IT, we train three models CoALM 8B, CoALM 70B, and CoALM 405B, which outperform top domain-specific models, including GPT-4o, across all three benchmarks. This demonstrates the feasibility of a single model approach for both TOD and LA, setting a new standard for conversational agents.