Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation
作者: Rajinder Sandhu, Di Mu, Cheng Chang, Md Shahriar Tasjid, Himanshu Rai, Maksims Volkovs, Ga Wu
分类: cs.IR, cs.AI, cs.LG
发布日期: 2026-04-24
💡 一句话要点
提出Utility-Aligned Embeddings (UAE),通过蒸馏LLM效用对齐稠密检索器,提升检索性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 稠密检索 检索增强生成 LLM效用 蒸馏学习 双编码器 信息噪声对比估计 困惑度 效用调制
📋 核心要点
- 现有稠密检索精度不足,而LLM重排序计算成本过高且易受噪声影响,难以兼顾效率与效果。
- UAE框架通过蒸馏LLM的效用信号,训练双编码器模仿效用分布,将效用信息注入嵌入空间。
- 实验表明,UAE在QASPER数据集上显著提升检索指标,且速度远超LLM重排序方法。
📝 摘要(中文)
稠密向量检索是检索增强生成(RAG)的实用骨干,但相似性搜索可能受到精度限制。相反,利用LLM重排序的基于效用的方法通常能获得卓越的性能,但计算成本高昂,并且容易受到困惑度估计中固有的噪声的影响。我们提出了Utility-Aligned Embeddings (UAE),这是一个旨在将这些优势合并到一种实用、高性能检索方法中的框架。我们将检索定义为一个分布匹配问题,训练一个双编码器来模仿从困惑度降低中导出的效用分布,使用效用调制的信息噪声对比估计目标。这种方法将分级的效用信号直接注入到嵌入空间中,而不需要测试时的LLM推理。在QASPER基准测试中,与强大的语义基线BGE-Base相比,UAE将检索Recall@1提高了30.59%,MAP提高了30.16%,Token F1提高了17.3%。至关重要的是,UAE比高效的LLM重排序方法快180倍以上,同时保持了具有竞争力的性能,这表明将检索与生成效用对齐可以在大规模上产生可靠的上下文。
🔬 方法详解
问题定义:论文旨在解决稠密检索在检索增强生成(RAG)任务中精度不足的问题。现有的稠密检索方法依赖于相似度搜索,但其精度存在局限性。虽然基于LLM重排序的方法可以提高精度,但计算成本非常高,并且容易受到困惑度估计中噪声的影响,难以在大规模应用中部署。
核心思路:论文的核心思路是将LLM的效用信号蒸馏到稠密检索器的嵌入空间中。通过训练一个双编码器来模仿从困惑度降低中导出的效用分布,使得检索器能够学习到LLM认为更有用的上下文信息。这样可以在不引入额外LLM推理的情况下,提高检索的准确性和效率。
技术框架:UAE框架主要包含以下几个阶段:1) 使用LLM对候选文档进行重排序,得到基于困惑度降低的效用分布。2) 使用双编码器(query encoder和document encoder)将query和文档编码成向量。3) 使用效用调制的信息噪声对比估计(Utility-Modulated InfoNCE)损失函数训练双编码器,使其输出的向量能够反映LLM的效用分布。
关键创新:该论文的关键创新在于提出了一种将LLM的效用信号注入到稠密检索器嵌入空间的方法。与传统的稠密检索方法相比,UAE能够学习到LLM认为更有用的上下文信息,从而提高检索的准确性。与基于LLM重排序的方法相比,UAE不需要在测试时进行LLM推理,因此具有更高的效率。
关键设计:UAE的关键设计包括:1) 使用困惑度降低来衡量LLM的效用。2) 使用信息噪声对比估计(InfoNCE)作为主要的损失函数,并引入效用调制项,使得模型更加关注LLM认为更有用的负样本。3) 使用双编码器结构,分别编码query和文档。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UAE在QASPER基准测试中,与强大的语义基线BGE-Base相比,检索Recall@1提高了30.59%,MAP提高了30.16%,Token F1提高了17.3%。更重要的是,UAE比高效的LLM重排序方法快180倍以上,同时保持了具有竞争力的性能,证明了其在大规模应用中的可行性。
🎯 应用场景
该研究成果可广泛应用于检索增强生成(RAG)系统,提升问答、文本摘要、对话生成等任务的性能。通过提高检索的准确性和效率,UAE能够帮助构建更智能、更高效的AI应用,例如智能客服、知识库问答系统、内容推荐等。
📄 摘要(原文)
Dense vector retrieval is the practical backbone of Retrieval- Augmented Generation (RAG), but similarity search can suffer from precision limitations. Conversely, utility-based approaches leveraging LLM re-ranking often achieve superior performance but are computationally prohibitive and prone to noise inherent in perplexity estimation. We propose Utility-Aligned Embeddings (UAE), a framework designed to merge these advantages into a practical, high-performance retrieval method. We formulate retrieval as a distribution matching problem, training a bi-encoder to imitate a utility distribution derived from perplexity reduction using a Utility-Modulated InfoNCE objective. This approach injects graded utility signals directly into the embedding space without requiring test-time LLM inference. On the QASPER benchmark, UAE improves retrieval Recall@1 by 30.59%, MAP by 30.16% and Token F1 by 17.3% over the strong semantic baseline BGE-Base. Crucially, UAE is over 180x faster than the efficient LLM re-ranking methods preserving competitive performance, demonstrating that aligning retrieval with generative utility yields reliable contexts at scale.