IntentGPT: Few-shot Intent Discovery with Large Language Models
作者: Juan A. Rodriguez, Nicholas Botzer, David Vazquez, Christopher Pal, Marco Pedersoli, Issam Laradji
分类: cs.CL
发布日期: 2024-11-16
备注: ICLR 2024 Workshop on LLM Agents
💡 一句话要点
IntentGPT:利用大语言模型进行少样本意图发现,无需训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 意图发现 大型语言模型 少样本学习 上下文学习 对话系统 自然语言处理
📋 核心要点
- 现有意图发现方法依赖大量标注数据进行训练,成本高昂且难以适应用户意图的快速变化。
- IntentGPT利用大型语言模型的强大能力,通过上下文学习,仅需少量样本即可发现新的用户意图。
- 实验表明,IntentGPT在多个基准数据集上超越了需要大量数据训练的现有方法,展现出优越的性能。
📝 摘要(中文)
在当今数字化世界中,对话系统在改善用户交互方面发挥着关键作用。在这些对话中,自动识别用户的目标对于及时满足他们的需求至关重要。这就需要集成执行意图检测的模型。然而,用户的意图是多样且动态的,使得维护一组固定的预定义意图具有挑战性。因此,更实际的方法是开发一种能够识别新出现的意图的模型。我们解决了意图发现的挑战,该领域已引起了研究界的广泛关注。现有方法需要大量数据进行训练才能正确识别新意图,这需要大量的人力。为了克服这个问题,我们引入了IntentGPT,这是一种新颖的免训练方法,可以有效地提示大型语言模型(LLM),例如GPT-4,以最少的标记数据来发现新意图。IntentGPT包含一个上下文提示生成器,用于为上下文学习生成信息丰富的提示;一个意图预测器,用于从话语中分类和发现用户意图;以及一个语义少样本采样器,用于选择相关的少样本示例和一组已知意图以注入到提示中。我们的实验表明,在包括CLINC和BANKING在内的流行基准测试中,IntentGPT优于以前需要大量领域特定数据和微调的方法。
🔬 方法详解
问题定义:论文旨在解决意图发现问题,即在对话系统中自动识别用户意图。现有方法通常需要大量标注数据进行训练,这在实际应用中成本很高,并且难以适应用户意图的快速变化。此外,预定义的意图集合难以覆盖所有可能的用户意图,导致系统无法识别新的或未知的意图。
核心思路:论文的核心思路是利用大型语言模型(LLM)的上下文学习能力,通过精心设计的提示(prompt)来引导LLM识别新的用户意图。这种方法无需针对特定领域进行大量训练,从而降低了成本并提高了模型的泛化能力。通过少量的示例,LLM可以学习到意图的语义表示,并将其应用于新的用户输入。
技术框架:IntentGPT包含三个主要模块:1) 上下文提示生成器(In-Context Prompt Generator):负责生成信息丰富的提示,用于指导LLM进行上下文学习。2) 意图预测器(Intent Predictor):利用LLM对用户话语进行分类,并发现新的意图。3) 语义少样本采样器(Semantic Few-Shot Sampler):选择相关的少样本示例和一组已知的意图,并将它们注入到提示中,以提高LLM的意图识别准确率。
关键创新:IntentGPT的关键创新在于其免训练的意图发现方法。与传统的监督学习方法不同,IntentGPT不需要大量的标注数据进行训练。它通过上下文学习,利用LLM的强大语言理解能力,仅需少量示例即可发现新的意图。这种方法大大降低了意图发现的成本,并提高了模型的适应性。
关键设计:IntentGPT的关键设计包括:1) 精心设计的提示模板,用于引导LLM进行意图识别。2) 语义少样本采样策略,用于选择最相关的示例,以提高LLM的性能。3) 利用LLM的zero-shot或few-shot能力,无需针对特定领域进行微调。
🖼️ 关键图片
📊 实验亮点
IntentGPT在CLINC和BANKING等多个基准数据集上进行了评估,实验结果表明,IntentGPT优于需要大量领域特定数据和微调的现有方法。具体而言,IntentGPT在少样本意图发现任务上取得了显著的性能提升,证明了其免训练方法的有效性。
🎯 应用场景
IntentGPT可广泛应用于各种对话系统,例如智能客服、虚拟助手和聊天机器人。它可以帮助这些系统更好地理解用户的意图,从而提供更准确、更个性化的服务。此外,IntentGPT还可以用于自动发现新的用户需求和趋势,为产品开发和市场营销提供有价值的信息。该研究的潜在影响在于降低了对话系统开发的成本,并提高了用户体验。
📄 摘要(原文)
In today's digitally driven world, dialogue systems play a pivotal role in enhancing user interactions, from customer service to virtual assistants. In these dialogues, it is important to identify user's goals automatically to resolve their needs promptly. This has necessitated the integration of models that perform Intent Detection. However, users' intents are diverse and dynamic, making it challenging to maintain a fixed set of predefined intents. As a result, a more practical approach is to develop a model capable of identifying new intents as they emerge. We address the challenge of Intent Discovery, an area that has drawn significant attention in recent research efforts. Existing methods need to train on a substantial amount of data for correctly identifying new intents, demanding significant human effort. To overcome this, we introduce IntentGPT, a novel training-free method that effectively prompts Large Language Models (LLMs) such as GPT-4 to discover new intents with minimal labeled data. IntentGPT comprises an \textit{In-Context Prompt Generator}, which generates informative prompts for In-Context Learning, an \textit{Intent Predictor} for classifying and discovering user intents from utterances, and a \textit{Semantic Few-Shot Sampler} that selects relevant few-shot examples and a set of known intents to be injected into the prompt. Our experiments show that IntentGPT outperforms previous methods that require extensive domain-specific data and fine-tuning, in popular benchmarks, including CLINC and BANKING, among others.