ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning

📄 arXiv: 2505.15776v2 📥 PDF

作者: Changtai Zhu, Siyin Wang, Ruijun Feng, Kai Song, Xipeng Qiu

分类: cs.CL, cs.IR

发布日期: 2025-05-21 (更新: 2025-09-14)

备注: Accepted by EMNLP 2025 at the Main Conference


💡 一句话要点

ConvSearch-R1:利用强化学习和检索信号,提升会话搜索中的查询改写效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 会话搜索 查询改写 强化学习 自监督学习 信息检索

📋 核心要点

  1. 现有会话查询改写方法依赖昂贵的人工标注或大型语言模型,且改写模型与下游检索器对齐不足。
  2. ConvSearch-R1利用强化学习,通过检索信号直接优化查询改写,无需外部监督,实现自驱动。
  3. 实验表明,ConvSearch-R1在TopiOCQA数据集上取得了超过10%的显著提升,且模型参数更少。

📝 摘要(中文)

会话搜索系统需要有效处理上下文相关的查询,这些查询通常包含歧义、省略和指代。会话查询改写(CQR)通过将这些查询转换为自包含的形式来解决这一挑战,使其适用于现成的检索器。然而,现有的CQR方法存在两个关键约束:高度依赖于来自人工标注或大型语言模型的昂贵外部监督,以及改写模型与下游检索器之间的对齐不足。我们提出了ConvSearch-R1,这是第一个完全消除对外部改写监督依赖的自驱动框架,它利用强化学习通过检索信号直接优化改写。我们新颖的两阶段方法结合了自驱动策略预热,通过检索引导的自蒸馏来解决冷启动问题,然后是检索引导的强化学习,其中包含专门设计的排名激励奖励塑造机制,以解决传统检索指标中的稀疏性问题。在TopiOCQA和QReCC数据集上的大量实验表明,ConvSearch-R1显著优于以前的最先进方法,在具有挑战性的TopiOCQA数据集上实现了超过10%的改进,同时使用更小的3B参数模型,且没有任何外部监督。

🔬 方法详解

问题定义:会话查询改写(CQR)旨在将上下文相关的会话查询转换为独立的、明确的查询,以便标准检索器能够有效处理。现有方法的痛点在于过度依赖人工标注或大型语言模型进行监督,成本高昂,且改写后的查询可能与下游检索器的目标不一致,导致性能瓶颈。

核心思路:ConvSearch-R1的核心思路是利用强化学习,直接从检索结果中获取反馈信号,指导查询改写模型的训练。通过这种方式,模型可以学习生成更适合下游检索器的查询,同时避免对外部监督的依赖。这种自驱动的方式能够降低成本,并提高模型的泛化能力。

技术框架:ConvSearch-R1采用两阶段训练框架。第一阶段是“自驱动策略预热”,利用检索结果对自身进行蒸馏,解决强化学习的冷启动问题。具体来说,使用初始的改写模型生成查询,然后用检索结果对改写后的查询进行排序,并用排序结果作为伪标签,训练改写模型。第二阶段是“检索引导的强化学习”,使用强化学习算法(例如,策略梯度)优化改写模型,奖励信号基于检索结果的排名。

关键创新:ConvSearch-R1最重要的创新点在于完全消除了对外部监督的依赖,实现了自驱动的会话查询改写。通过强化学习,模型能够直接从检索结果中学习,从而更好地适应下游检索器的需求。此外,提出的排名激励奖励塑造机制有效地解决了传统检索指标的稀疏性问题,加速了强化学习的收敛。

关键设计:在自驱动策略预热阶段,使用检索结果的排序作为伪标签,训练改写模型。在强化学习阶段,奖励函数的设计至关重要。ConvSearch-R1设计了一种排名激励奖励塑造机制,该机制基于检索结果的排名变化来调整奖励,鼓励模型生成能够提升检索排名的查询。具体来说,奖励函数可以设计为检索结果排名提升的幅度,或者基于某种检索指标(例如,NDCG)的变化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ConvSearch-R1在TopiOCQA数据集上取得了显著的性能提升,超过了以往最先进的方法10%以上。同时,该模型使用了更小的3B参数模型,且无需任何外部监督。在QReCC数据集上,ConvSearch-R1也取得了具有竞争力的结果,证明了其有效性和泛化能力。

🎯 应用场景

ConvSearch-R1可应用于各种会话搜索系统,例如智能助手、聊天机器人和在线客服。通过提升查询改写的准确性和效率,可以显著改善用户体验,提高信息检索的质量。该研究的自驱动方法也为其他自然语言处理任务提供了新的思路,尤其是在缺乏标注数据的场景下。

📄 摘要(原文)

Conversational search systems require effective handling of context-dependent queries that often contain ambiguity, omission, and coreference. Conversational Query Reformulation (CQR) addresses this challenge by transforming these queries into self-contained forms suitable for off-the-shelf retrievers. However, existing CQR approaches suffer from two critical constraints: high dependency on costly external supervision from human annotations or large language models, and insufficient alignment between the rewriting model and downstream retrievers. We present ConvSearch-R1, the first self-driven framework that completely eliminates dependency on external rewrite supervision by leveraging reinforcement learning to optimize reformulation directly through retrieval signals. Our novel two-stage approach combines Self-Driven Policy Warm-Up to address the cold-start problem through retrieval-guided self-distillation, followed by Retrieval-Guided Reinforcement Learning with a specially designed rank-incentive reward shaping mechanism that addresses the sparsity issue in conventional retrieval metrics. Extensive experiments on TopiOCQA and QReCC datasets demonstrate that ConvSearch-R1 significantly outperforms previous state-of-the-art methods, achieving over 10% improvement on the challenging TopiOCQA dataset while using smaller 3B parameter models without any external supervision.