Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation

作者: Rajinder Sandhu, Di Mu, Cheng Chang, Md Shahriar Tasjid, Himanshu Rai, Maksims Volkovs, Ga Wu

分类: cs.IR, cs.AI, cs.LG

发布日期: 2026-04-24

💡 一句话要点

提出Utility-Aligned Embeddings (UAE)，通过蒸馏LLM效用对齐稠密检索器，提升检索性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 稠密检索 检索增强生成 LLM效用 蒸馏学习 双编码器 信息噪声对比估计 困惑度 效用调制

📋 核心要点

现有稠密检索精度不足，而LLM重排序计算成本过高且易受噪声影响，难以兼顾效率与效果。
UAE框架通过蒸馏LLM的效用信号，训练双编码器模仿效用分布，将效用信息注入嵌入空间。
实验表明，UAE在QASPER数据集上显著提升检索指标，且速度远超LLM重排序方法。

📝 摘要（中文）

稠密向量检索是检索增强生成(RAG)的实用骨干，但相似性搜索可能受到精度限制。相反，利用LLM重排序的基于效用的方法通常能获得卓越的性能，但计算成本高昂，并且容易受到困惑度估计中固有的噪声的影响。我们提出了Utility-Aligned Embeddings (UAE)，这是一个旨在将这些优势合并到一种实用、高性能检索方法中的框架。我们将检索定义为一个分布匹配问题，训练一个双编码器来模仿从困惑度降低中导出的效用分布，使用效用调制的信息噪声对比估计目标。这种方法将分级的效用信号直接注入到嵌入空间中，而不需要测试时的LLM推理。在QASPER基准测试中，与强大的语义基线BGE-Base相比，UAE将检索Recall@1提高了30.59%，MAP提高了30.16%，Token F1提高了17.3%。至关重要的是，UAE比高效的LLM重排序方法快180倍以上，同时保持了具有竞争力的性能，这表明将检索与生成效用对齐可以在大规模上产生可靠的上下文。

🔬 方法详解

问题定义：论文旨在解决稠密检索在检索增强生成（RAG）任务中精度不足的问题。现有的稠密检索方法依赖于相似度搜索，但其精度存在局限性。虽然基于LLM重排序的方法可以提高精度，但计算成本非常高，并且容易受到困惑度估计中噪声的影响，难以在大规模应用中部署。

核心思路：论文的核心思路是将LLM的效用信号蒸馏到稠密检索器的嵌入空间中。通过训练一个双编码器来模仿从困惑度降低中导出的效用分布，使得检索器能够学习到LLM认为更有用的上下文信息。这样可以在不引入额外LLM推理的情况下，提高检索的准确性和效率。

技术框架：UAE框架主要包含以下几个阶段：1) 使用LLM对候选文档进行重排序，得到基于困惑度降低的效用分布。2) 使用双编码器（query encoder和document encoder）将query和文档编码成向量。3) 使用效用调制的信息噪声对比估计（Utility-Modulated InfoNCE）损失函数训练双编码器，使其输出的向量能够反映LLM的效用分布。

关键创新：该论文的关键创新在于提出了一种将LLM的效用信号注入到稠密检索器嵌入空间的方法。与传统的稠密检索方法相比，UAE能够学习到LLM认为更有用的上下文信息，从而提高检索的准确性。与基于LLM重排序的方法相比，UAE不需要在测试时进行LLM推理，因此具有更高的效率。

关键设计：UAE的关键设计包括：1) 使用困惑度降低来衡量LLM的效用。2) 使用信息噪声对比估计（InfoNCE）作为主要的损失函数，并引入效用调制项，使得模型更加关注LLM认为更有用的负样本。3) 使用双编码器结构，分别编码query和文档。

🖼️ 关键图片

📊 实验亮点

实验结果表明，UAE在QASPER基准测试中，与强大的语义基线BGE-Base相比，检索Recall@1提高了30.59%，MAP提高了30.16%，Token F1提高了17.3%。更重要的是，UAE比高效的LLM重排序方法快180倍以上，同时保持了具有竞争力的性能，证明了其在大规模应用中的可行性。

🎯 应用场景

该研究成果可广泛应用于检索增强生成（RAG）系统，提升问答、文本摘要、对话生成等任务的性能。通过提高检索的准确性和效率，UAE能够帮助构建更智能、更高效的AI应用，例如智能客服、知识库问答系统、内容推荐等。

📄 摘要（原文）

Dense vector retrieval is the practical backbone of Retrieval- Augmented Generation (RAG), but similarity search can suffer from precision limitations. Conversely, utility-based approaches leveraging LLM re-ranking often achieve superior performance but are computationally prohibitive and prone to noise inherent in perplexity estimation. We propose Utility-Aligned Embeddings (UAE), a framework designed to merge these advantages into a practical, high-performance retrieval method. We formulate retrieval as a distribution matching problem, training a bi-encoder to imitate a utility distribution derived from perplexity reduction using a Utility-Modulated InfoNCE objective. This approach injects graded utility signals directly into the embedding space without requiring test-time LLM inference. On the QASPER benchmark, UAE improves retrieval Recall@1 by 30.59%, MAP by 30.16% and Token F1 by 17.3% over the strong semantic baseline BGE-Base. Crucially, UAE is over 180x faster than the efficient LLM re-ranking methods preserving competitive performance, demonstrating that aligning retrieval with generative utility yields reliable contexts at scale.

Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理