Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling
作者: Zihao Feng, Xiaoxue Wang, Ziwei Bai, Donghang Su, Bowen Wu, Qun Yu, Baoxun Wang
分类: cs.CL
发布日期: 2025-04-18 (更新: 2025-04-21)
💡 一句话要点
提出基于奖励的课程采样的GRPO方法,提升意图检测的泛化性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 意图检测 强化学习 课程学习 泛化能力 思维链
📋 核心要点
- 现有意图检测方法在面对未见意图时泛化能力不足,导致任务路由错误。
- 提出基于奖励的课程采样(RCS)的GRPO方法,利用强化学习提升模型泛化能力。
- 实验表明,该方法显著优于监督微调基线,且思维链(COT)过程进一步提升了复杂意图检测的泛化能力。
📝 摘要(中文)
意图检测是面向任务的对话系统(TOD)中的关键组成部分,但随着可集成工具及其复杂关系的快速涌现,意图检测面临着适应性挑战。现有的零样本重构和基于LLM的动态识别等方法,在遇到未见过的意图时,性能会显著下降,导致错误的task routing。为了增强模型在未见任务上的泛化性能,本文采用强化学习(RL),结合基于奖励的课程采样(RCS),在意图检测任务的Group Relative Policy Optimization (GRPO)训练过程中进行优化。实验表明,经过RL训练的模型在泛化性能上明显优于监督微调(SFT)基线。此外,RCS的引入显著增强了RL在意图检测中的有效性,使模型在训练过程中专注于具有挑战性的案例。更重要的是,在RL中加入思维链(COT)过程,显著提高了复杂意图检测任务的泛化能力,突出了在具有挑战性的场景中进行思考的重要性。这项工作推进了意图检测任务的泛化,为部署适应性对话系统提供了实践见解。
🔬 方法详解
问题定义:意图检测模型在实际应用中需要处理不断涌现的新意图,而现有方法在面对这些未见过的意图时,泛化能力较差,导致任务路由错误。现有的零样本学习和基于大型语言模型的方法虽然有所改进,但仍然无法有效解决这个问题。因此,如何提升意图检测模型在未见意图上的泛化能力是一个重要的研究问题。
核心思路:本文的核心思路是利用强化学习(RL)来训练意图检测模型,使其能够更好地适应未见意图。具体来说,通过将意图检测任务建模为一个强化学习问题,模型可以通过与环境的交互来学习如何更好地识别意图。此外,还引入了基于奖励的课程采样(RCS)策略,使模型能够更加关注于具有挑战性的训练样本,从而提高学习效率和泛化能力。
技术框架:整体框架包括三个主要部分:意图检测模型、强化学习环境和课程采样策略。意图检测模型负责预测输入文本的意图;强化学习环境模拟了实际应用场景,根据模型的预测结果给出奖励信号;课程采样策略根据模型的表现选择合适的训练样本。在训练过程中,模型通过与环境的交互不断优化自身参数,同时课程采样策略动态调整训练样本的难度,从而提高模型的泛化能力。此外,还引入了Group Relative Policy Optimization (GRPO) 方法来稳定强化学习的训练过程。
关键创新:本文的关键创新在于将强化学习与课程采样相结合,用于提升意图检测模型的泛化能力。与传统的监督学习方法相比,强化学习能够更好地探索未见意图的空间,从而提高模型的适应性。课程采样策略则能够使模型更加关注于具有挑战性的训练样本,从而提高学习效率。此外,引入思维链(COT)过程,进一步提升了复杂意图检测任务的泛化能力。
关键设计:RCS策略根据模型在每个样本上的表现(奖励)来决定是否选择该样本进行训练。具体来说,对于表现较差的样本,RCS会增加其被选中的概率,从而使模型更加关注于这些具有挑战性的样本。奖励函数的设计至关重要,它需要能够准确反映模型的表现。此外,GRPO方法的具体实现也需要仔细设计,以保证训练过程的稳定性和收敛性。COT过程通过引入中间推理步骤,帮助模型更好地理解复杂意图。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于RL训练的模型在泛化性能上显著优于监督微调(SFT)基线。引入RCS后,模型性能进一步提升,表明RCS能够有效提高RL在意图检测中的效果。更重要的是,在RL中加入思维链(COT)过程,显著提高了复杂意图检测任务的泛化能力,验证了COT在处理复杂任务时的有效性。具体性能数据未知,但整体提升效果明显。
🎯 应用场景
该研究成果可应用于各种面向任务的对话系统,例如智能客服、语音助手等。通过提升意图检测的泛化能力,可以使这些系统更好地适应不断变化的用户需求和新的应用场景。此外,该方法还可以推广到其他自然语言处理任务中,例如文本分类、情感分析等,具有广泛的应用前景。
📄 摘要(原文)
Intent detection, a critical component in task-oriented dialogue (TOD) systems, faces significant challenges in adapting to the rapid influx of integrable tools with complex interrelationships. Existing approaches, such as zero-shot reformulations and LLM-based dynamic recognition, struggle with performance degradation when encountering unseen intents, leading to erroneous task routing. To enhance the model's generalization performance on unseen tasks, we employ Reinforcement Learning (RL) combined with a Reward-based Curriculum Sampling (RCS) during Group Relative Policy Optimization (GRPO) training in intent detection tasks. Experiments demonstrate that RL-trained models substantially outperform supervised fine-tuning (SFT) baselines in generalization. Besides, the introduction of the RCS, significantly bolsters the effectiveness of RL in intent detection by focusing the model on challenging cases during training. Moreover, incorporating Chain-of-Thought (COT) processes in RL notably improves generalization in complex intent detection tasks, underscoring the importance of thought in challenging scenarios. This work advances the generalization of intent detection tasks, offering practical insights for deploying adaptable dialogue systems.