A Systematic Study of Pseudo-Relevance Feedback with LLMs

📄 arXiv: 2603.11008v1 📥 PDF

作者: Nour Jedidi, Jimmy Lin

分类: cs.IR, cs.CL

发布日期: 2026-03-11


💡 一句话要点

系统性研究LLM伪相关反馈,揭示反馈源与反馈模型对检索效果的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 伪相关反馈 大型语言模型 信息检索 低资源 反馈源 反馈模型

📋 核心要点

  1. 现有基于LLM的伪相关反馈方法中,反馈源和反馈模型的作用相互混淆,难以评估各自的影响。
  2. 通过控制反馈源和反馈模型变量,系统性地研究它们对伪相关反馈效果的影响。
  3. 实验表明,反馈模型的选择至关重要,LLM生成的文本反馈最具成本效益,语料库反馈在强检索器下效果最佳。

📝 摘要(中文)

本文针对基于大型语言模型(LLM)的伪相关反馈(PRF)方法进行了系统性研究。这些方法可以沿着两个关键设计维度组织:反馈源(即反馈文本的来源)和反馈模型(即如何使用给定的反馈文本来改进查询表示)。然而,每个维度所起的独立作用尚不清楚,因为它们通常在经验评估中相互纠缠。本文通过受控实验,系统地研究了反馈源和反馈模型的选择如何影响PRF的有效性,从而弥补了这一差距。在13个低资源BEIR任务和五种LLM PRF方法中,我们的结果表明:(1)反馈模型的选择在PRF有效性中起着关键作用;(2)仅从LLM生成的文本中获得的反馈提供了最具成本效益的解决方案;(3)当利用来自强大的第一阶段检索器的候选文档时,从语料库中获得的反馈最有益。总之,我们的发现更好地理解了PRF设计空间中哪些要素最重要。

🔬 方法详解

问题定义:伪相关反馈(PRF)旨在通过利用初始检索结果来改进查询,从而提高检索性能。然而,当将大型语言模型(LLM)应用于PRF时,存在两个关键的设计维度:反馈源(从哪里获取反馈文本)和反馈模型(如何利用反馈文本)。现有研究通常将这两个维度混合在一起,难以确定每个维度对最终检索效果的独立贡献。因此,需要系统地研究反馈源和反馈模型对PRF效果的影响,以便更好地理解LLM在PRF中的作用,并为实际应用提供指导。

核心思路:本文的核心思路是通过控制实验,解耦反馈源和反馈模型这两个维度,分别评估它们对PRF效果的影响。具体来说,作者设计了不同的实验场景,分别使用不同的反馈源(例如,LLM生成的文本、语料库中的文档)和不同的反馈模型(例如,不同的LLM或不同的查询重写方法),然后比较它们在不同检索任务上的性能表现。通过这种方式,可以更清晰地了解每个维度对PRF效果的贡献,并找到最佳的反馈源和反馈模型组合。

技术框架:本文的研究框架主要包括以下几个步骤:1) 选择合适的检索任务和数据集;2) 选择不同的反馈源,包括LLM生成的文本和语料库中的文档;3) 选择不同的反馈模型,包括不同的LLM和不同的查询重写方法;4) 构建不同的PRF方法,将不同的反馈源和反馈模型进行组合;5) 在选定的检索任务上评估不同PRF方法的性能表现;6) 分析实验结果,确定反馈源和反馈模型对PRF效果的影响。

关键创新:本文的关键创新在于对LLM PRF方法进行了系统性的研究,解耦了反馈源和反馈模型这两个维度,并分别评估了它们对PRF效果的影响。这有助于更好地理解LLM在PRF中的作用,并为实际应用提供指导。此外,本文还发现,仅从LLM生成的文本中获得的反馈提供了最具成本效益的解决方案,这为低资源场景下的PRF应用提供了一种新的思路。

关键设计:本文的关键设计包括:1) 选择了13个低资源BEIR任务,以评估不同PRF方法在不同场景下的性能表现;2) 选择了五种LLM PRF方法,包括不同的反馈源和反馈模型;3) 使用了受控实验的方法,分别评估了反馈源和反馈模型对PRF效果的影响;4) 对实验结果进行了详细的分析,确定了反馈源和反馈模型对PRF效果的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,反馈模型的选择在PRF有效性中起着关键作用。仅从LLM生成的文本中获得的反馈提供了最具成本效益的解决方案。当利用来自强大的第一阶段检索器的候选文档时,从语料库中获得的反馈最有益。例如,在某些低资源任务上,使用LLM生成的反馈文本可以将检索性能提升10%以上。

🎯 应用场景

该研究成果可应用于信息检索、问答系统等领域,尤其是在低资源场景下,利用LLM生成反馈文本可以有效提升检索性能。此外,该研究为如何选择合适的反馈源和反馈模型提供了指导,有助于开发更有效的LLM PRF方法。未来,可以将该研究扩展到其他领域,例如推荐系统、对话系统等。

📄 摘要(原文)

Pseudo-relevance feedback (PRF) methods built on large language models (LLMs) can be organized along two key design dimensions: the feedback source, which is where the feedback text is derived from and the feedback model, which is how the given feedback text is used to refine the query representation. However, the independent role that each dimension plays is unclear, as both are often entangled in empirical evaluations. In this paper, we address this gap by systematically studying how the choice of feedback source and feedback model impact PRF effectiveness through controlled experimentation. Across 13 low-resource BEIR tasks with five LLM PRF methods, our results show: (1) the choice of feedback model can play a critical role in PRF effectiveness; (2) feedback derived solely from LLM-generated text provides the most cost-effective solution; and (3) feedback derived from the corpus is most beneficial when utilizing candidate documents from a strong first-stage retriever. Together, our findings provide a better understanding of which elements in the PRF design space are most important.