Efficient Out-of-Scope Detection in Dialogue Systems via Uncertainty-Driven LLM Routing
作者: Álvaro Zaera, Diana Nicoleta Popa, Ivan Sekulic, Paolo Rosso
分类: cs.CL
发布日期: 2025-07-02
💡 一句话要点
提出基于不确定性驱动的LLM路由方法,高效检测对话系统中超出范围的意图
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 超出范围检测 意图识别 对话系统 大型语言模型 不确定性估计
📋 核心要点
- 面向任务的对话系统面临超出范围意图检测的挑战,现有方法在效率和准确性之间难以平衡。
- 该论文提出一种模块化框架,利用不确定性估计引导LLM对高不确定性样本进行二次判断。
- 实验表明,该方法在多个OOS检测基准上取得了领先成果,并验证了在真实对话系统中的有效性。
📝 摘要(中文)
本文提出了一种新颖而简洁的模块化框架,用于在面向任务的对话系统(TODS)中高效且准确地检测超出范围(OOS)的意图。该框架结合了不确定性建模和微调的大型语言模型(LLM)。首先,对当前部署在真实TODS中的意图检测分类器的输出进行不确定性估计,该系统每天处理数万次用户交互。然后,利用基于LLM的新兴方法,触发微调的LLM对具有高不确定性的实例做出最终决策。与现有方法不同,我们的方法有效地平衡了计算效率和性能,将传统方法与LLM相结合,并在关键的OOS检测基准测试中取得了最先进的结果,包括从已部署的TODS中获取的真实OOS数据。
🔬 方法详解
问题定义:面向任务的对话系统需要准确识别用户意图,但实际应用中,用户可能提出系统未预料到的问题(超出范围意图,OOS)。现有OOS检测方法通常计算成本高昂,或者在真实场景下的泛化能力不足,难以在效率和准确性之间取得平衡。
核心思路:该论文的核心思路是利用传统分类器进行初步意图识别,并结合不确定性估计来判断识别结果的可信度。对于高不确定性的样本,则利用计算能力更强但成本也更高的LLM进行二次判断,从而实现效率和准确性的平衡。这样设计的目的是充分利用现有系统的能力,并仅在必要时才调用LLM,降低整体计算成本。
技术框架:该框架包含两个主要模块:1) 基于传统分类器的意图检测模块,该模块输出意图预测结果以及对应的不确定性估计;2) 基于微调LLM的OOS检测模块,该模块仅处理来自第一个模块的高不确定性样本,并输出最终的OOS判断结果。整体流程是:用户输入 -> 意图检测模块 -> 不确定性估计 -> 高不确定性样本路由到LLM模块 -> OOS判断。
关键创新:该论文的关键创新在于将不确定性估计与LLM路由相结合,实现了一种高效的OOS检测方法。与直接使用LLM进行所有样本的OOS检测相比,该方法显著降低了计算成本。与仅使用传统分类器的方法相比,该方法通过LLM的二次判断提高了OOS检测的准确性。
关键设计:论文中,不确定性估计的具体方法未知,但可以采用例如softmax概率的熵、或者集成方法的方差等。LLM的选择和微调策略也至关重要,需要根据具体的任务和数据进行选择。此外,如何确定不确定性的阈值,以决定哪些样本需要路由到LLM模块,也是一个关键的设计参数。损失函数的设计需要同时考虑OOS检测的准确率和召回率。
🖼️ 关键图片
📊 实验亮点
该论文在多个OOS检测基准测试中取得了最先进的结果,尤其是在从真实部署的TODS中获取的数据集上表现出色,验证了该方法在实际应用中的有效性。具体的性能数据和对比基线在摘要中未提供,属于未知信息。但强调了该方法在真实数据上的优势。
🎯 应用场景
该研究成果可广泛应用于各种面向任务的对话系统中,例如智能客服、语音助手、聊天机器人等。通过提高对话系统对未知问题的鲁棒性,可以显著提升用户体验,降低人工干预的需求,并扩展对话系统的应用范围。该方法也为其他需要平衡计算效率和准确性的AI任务提供了借鉴。
📄 摘要(原文)
Out-of-scope (OOS) intent detection is a critical challenge in task-oriented dialogue systems (TODS), as it ensures robustness to unseen and ambiguous queries. In this work, we propose a novel but simple modular framework that combines uncertainty modeling with fine-tuned large language models (LLMs) for efficient and accurate OOS detection. The first step applies uncertainty estimation to the output of an in-scope intent detection classifier, which is currently deployed in a real-world TODS handling tens of thousands of user interactions daily. The second step then leverages an emerging LLM-based approach, where a fine-tuned LLM is triggered to make a final decision on instances with high uncertainty. Unlike prior approaches, our method effectively balances computational efficiency and performance, combining traditional approaches with LLMs and yielding state-of-the-art results on key OOS detection benchmarks, including real-world OOS data acquired from a deployed TODS.