Pseudo Relevance Feedback is Enough to Close the Gap Between Small and Large Dense Retrieval Models
作者: Hang Li, Xiao Wang, Bevan Koopman, Guido Zuccon
分类: cs.IR, cs.LG
发布日期: 2025-03-19 (更新: 2025-06-06)
💡 一句话要点
PromptPRF:利用伪相关反馈使小型稠密检索模型媲美大型模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 伪相关反馈 稠密检索 大型语言模型 零样本学习 信息检索
📋 核心要点
- 现有稠密检索器依赖大型LLM骨干网络,导致硬件成本高昂,索引和查询成本增加,效率较低。
- PromptPRF通过离线提取文档特征并融入查询表示,实现了高效的零样本检索,无需额外训练。
- 实验表明,PromptPRF显著提升了小型稠密检索器的检索效果,在成本效益方面表现出色。
📝 摘要(中文)
本文提出PromptPRF,一种基于特征的伪相关反馈(PRF)框架,旨在使基于小型LLM的稠密检索器达到与大型模型相当的效果,从而挑战了通过扩展稠密检索器到更大的LLM骨干网络来提高检索效果的传统策略。PromptPRF使用LLM从排名靠前的文档中提取与查询无关的结构化和非结构化特征(例如,实体、摘要、思维链关键词、文章)。这些特征离线生成,并通过提示集成到稠密查询表示中,从而实现高效检索,无需额外训练。与依赖在线、查询特定生成和稀疏检索的先前方法(如GRF)不同,PromptPRF将反馈生成与查询处理分离,并在完全零样本设置中支持稠密检索器。在TREC DL和BEIR基准上的实验表明,PromptPRF始终提高检索效果,并提供有利的成本效益权衡。进一步的消融研究分析了位置反馈的作用,以及特征提取器大小、PRF深度和模型性能之间的相互作用。研究结果表明,通过有效的PRF设计,扩展检索器并非总是必要的,从而缩小了小型模型和大型模型之间的差距,同时降低了推理成本。
🔬 方法详解
问题定义:论文旨在解决大型稠密检索模型成本高昂的问题。现有方法依赖于扩展LLM骨干网络来提升检索效果,但带来了更高的硬件需求和计算开销,限制了其在资源受限场景下的应用。
核心思路:论文的核心思路是利用伪相关反馈(PRF),通过从检索到的文档中提取信息来增强查询表示,从而提升检索效果。关键在于使用LLM提取与查询无关的文档特征,并将其融入查询表示中,使得小型模型也能达到大型模型的性能。
技术框架:PromptPRF框架包含以下主要步骤:1) 使用小型LLM稠密检索器检索top-k个文档;2) 使用大型LLM从这些文档中离线提取结构化和非结构化特征(如实体、摘要、思维链关键词等);3) 通过Prompt将这些特征融入原始查询表示,生成增强的查询表示;4) 使用增强的查询表示进行检索。整个过程无需额外训练。
关键创新:PromptPRF的关键创新在于:1) 提出了一种有效的特征提取方法,利用LLM提取与查询无关的文档特征;2) 将特征提取过程与查询处理分离,实现了高效的零样本检索;3) 通过Prompt将提取的特征融入查询表示,避免了额外的训练开销。与GRF等在线生成反馈的方法相比,PromptPRF更加高效且适用于稠密检索器。
关键设计:PromptPRF的关键设计包括:1) 特征提取器的选择:论文探索了不同大小的LLM作为特征提取器;2) PRF深度:即从多少个top文档中提取特征;3) Prompt的设计:如何有效地将提取的特征融入查询表示。论文还研究了位置反馈的作用,即不同位置的文档提取的特征对最终检索效果的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PromptPRF在TREC DL和BEIR基准测试中均取得了显著的性能提升。例如,使用小型LLM检索器结合PromptPRF,可以达到甚至超过大型LLM检索器的性能。消融实验表明,特征提取器的大小和PRF深度对性能有重要影响,并且位置反馈也起着关键作用。
🎯 应用场景
PromptPRF可应用于各种信息检索场景,尤其适用于资源受限的环境,例如移动设备或边缘计算。它能够降低检索系统的部署和维护成本,同时保持较高的检索精度,具有广泛的应用前景。该方法还可以促进小型LLM在检索领域的应用,推动绿色AI的发展。
📄 摘要(原文)
Scaling dense retrievers to larger large language model (LLM) backbones has been a dominant strategy for improving their retrieval effectiveness. However, this has substantial cost implications: larger backbones require more expensive hardware (e.g. GPUs with more memory) and lead to higher indexing and querying costs (latency, energy consumption). In this paper, we challenge this paradigm by introducing PromptPRF, a feature-based pseudo-relevance feedback (PRF) framework that enables small LLM-based dense retrievers to achieve effectiveness comparable to much larger models. PromptPRF uses LLMs to extract query-independent, structured and unstructured features (e.g., entities, summaries, chain-of-thought keywords, essay) from top-ranked documents. These features are generated offline and integrated into dense query representations via prompting, enabling efficient retrieval without additional training. Unlike prior methods such as GRF, which rely on online, query-specific generation and sparse retrieval, PromptPRF decouples feedback generation from query processing and supports dense retrievers in a fully zero-shot setting. Experiments on TREC DL and BEIR benchmarks demonstrate that PromptPRF consistently improves retrieval effectiveness and offers favourable cost-effectiveness trade-offs. We further present ablation studies to understand the role of positional feedback and analyse the interplay between feature extractor size, PRF depth, and model performance. Our findings demonstrate that with effective PRF design, scaling the retriever is not always necessary, narrowing the gap between small and large models while reducing inference cost.