DiSCo: LLM Knowledge Distillation for Efficient Sparse Retrieval in Conversational Search
作者: Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas
分类: cs.IR, cs.CL
发布日期: 2024-10-18 (更新: 2025-05-15)
备注: 11 pages, 6 figures. SIGIR '25 Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval July 13--18, 2025 Padua, Italy
💡 一句话要点
DiSCo:面向会话搜索,通过LLM知识蒸馏实现高效稀疏检索
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 会话搜索 稀疏检索 知识蒸馏 大型语言模型 上下文建模 多教师蒸馏 相似度学习
📋 核心要点
- 现有会话搜索方法依赖人工重写查询的嵌入蒸馏,但忽略了检索任务与蒸馏过程的统一性。
- DiSCo通过蒸馏会话和文档之间的相似度得分,统一了检索和上下文建模,从而更好地利用文档相关性的对比性质。
- 实验表明,DiSCo在领域内和领域外检索任务中均取得了显著提升,并在领域外数据集上召回率提升高达6个百分点。
📝 摘要(中文)
会话搜索(CS)涉及从语料库中检索相关文档,同时考虑会话上下文,将检索与上下文建模相结合。大型语言模型(LLM)的最新进展通过支持基于会话上下文的查询重写,显著增强了CS。然而,在推理过程中使用LLM带来了效率挑战。现有的解决方案通过蒸馏从人工重写查询中获得的嵌入来缓解这个问题,主要侧重于学习上下文建模任务。然而,这些方法通常将对比检索任务与蒸馏过程分离,将其视为一个独立的损失项。为了克服这些限制,我们引入了DiSCo(稀疏会话检索蒸馏),这是一种新颖的方法,通过放宽的蒸馏目标统一了检索和上下文建模。我们的方法不是仅仅依赖于表示学习,而是蒸馏会话和文档之间的相似度得分,从而在表示空间中提供更大的自由度,并更好地利用文档相关性的对比性质。在五个CS数据集上对学习稀疏检索(LSR)进行的大量实验表明,DiSCo在领域内和领域外检索任务中都取得了显著的改进,在领域外数据集上的召回率比最先进的方法提高了高达6个百分点。此外,DiSCo采用了一种多教师蒸馏策略,使用多个LLM作为教师,进一步提高了性能,并在领域内设置中超过了单个教师。此外,模型稀疏性的分析表明,DiSCo可以更有效地控制训练模型的稀疏性。
🔬 方法详解
问题定义:现有会话搜索方法在利用大型语言模型(LLM)进行上下文建模时面临效率挑战。虽然可以通过蒸馏学习上下文感知的查询表示,但现有方法通常将对比检索任务与蒸馏过程分离,导致次优的检索性能。这些方法未能充分利用文档相关性的对比特性,并且在表示学习上存在局限性。
核心思路:DiSCo的核心思路是通过蒸馏LLM生成的会话和文档之间的相似度得分,而不是直接蒸馏查询表示,从而统一检索和上下文建模。这种方法允许模型在表示空间中拥有更大的自由度,能够更好地学习文档相关性的对比信息,并避免了对特定表示形式的过度约束。
技术框架:DiSCo的技术框架包括以下几个主要阶段:1) 使用多个LLM作为教师模型,生成会话和文档之间的相似度得分。2) 使用这些相似度得分作为目标,训练一个稀疏检索模型。3) 通过一个放宽的蒸馏目标,鼓励学生模型学习教师模型的相似度排序,而不是直接模仿教师模型的表示。4) 采用多教师蒸馏策略,综合利用多个LLM的知识,进一步提升性能。
关键创新:DiSCo最重要的技术创新点在于其统一检索和上下文建模的蒸馏目标。与现有方法不同,DiSCo直接蒸馏相似度得分,而不是依赖于表示学习,从而更好地利用了文档相关性的对比性质。此外,DiSCo采用多教师蒸馏策略,能够有效地整合多个LLM的知识,进一步提升性能。
关键设计:DiSCo的关键设计包括:1) 使用多个LLM(例如,不同的预训练模型或经过微调的模型)作为教师模型,以提高蒸馏的鲁棒性。2) 设计一个放宽的蒸馏损失函数,例如KL散度或Margin Ranking Loss,以鼓励学生模型学习教师模型的相似度排序。3) 通过控制模型的稀疏性,例如使用L1正则化或稀疏注意力机制,来提高检索效率。
🖼️ 关键图片
📊 实验亮点
DiSCo在五个会话搜索数据集上进行了广泛的实验,结果表明,DiSCo在领域内和领域外检索任务中都取得了显著的改进。特别是在领域外数据集上,DiSCo的召回率比最先进的方法提高了高达6个百分点。此外,DiSCo的多教师蒸馏策略在领域内设置中超过了单个教师的性能。模型稀疏性分析表明,DiSCo可以更有效地控制训练模型的稀疏性。
🎯 应用场景
DiSCo可应用于各种会话搜索场景,例如智能客服、问答系统和信息检索。通过提高会话搜索的准确性和效率,DiSCo可以改善用户体验,并为用户提供更相关的搜索结果。此外,DiSCo的多教师蒸馏策略可以推广到其他知识蒸馏任务中,具有广泛的应用前景。
📄 摘要(原文)
Conversational Search (CS) involves retrieving relevant documents from a corpus while considering the conversational context, integrating retrieval with context modeling. Recent advancements in Large Language Models (LLMs) have significantly enhanced CS by enabling query rewriting based on conversational context. However, employing LLMs during inference poses efficiency challenges. Existing solutions mitigate this issue by distilling embeddings derived from human-rewritten queries, focusing primarily on learning the context modeling task. These methods, however, often separate the contrastive retrieval task from the distillation process, treating it as an independent loss term. To overcome these limitations, we introduce DiSCo (Distillation of Sparse Conversational retrieval), a novel approach that unifies retrieval and context modeling through a relaxed distillation objective. Instead of relying exclusively on representation learning, our method distills similarity scores between conversations and documents, providing more freedom in the representation space and better leveraging the contrastive nature of document relevance. Extensive experiments on Learned Sparse Retrieval (LSR) across five CS datasets demonstrate that DiSCo achieves substantial improvements in both in-domain and out-of-domain retrieval tasks, achieving up to a six-point gain in recall for out-of-domain datasets over state-of-the-art methods. Additionally, DiSCo employs a multi-teacher distillation strategy, using multiple LLMs as teachers, further enhancing performance and surpassing the individual teachers in in-domain settings. Furthermore, analysis of model sparsity reveals that DiSCo allows for more effective control over the sparsity of the trained models.