Bayesian Active Learning with Gaussian Processes Guided by LLM Relevance Scoring for Dense Passage Retrieval
作者: Junyoung Kim, Anton Korikov, Jiazhou Liang, Justin Cui, Yifan Simon Liu, Qianfeng Wen, Mark Zhao, Scott Sanner
分类: cs.IR, cs.AI
发布日期: 2026-04-20
备注: ACL 2026 Findings
💡 一句话要点
提出BAGEL,利用LLM指导高斯过程主动学习,提升稠密检索效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动学习 高斯过程 大型语言模型 稠密检索 信息检索
📋 核心要点
- 现有稠密检索方法依赖第一阶段检索结果,无法有效检索语义差异大的相关passage,且相关性信号难以传播。
- BAGEL利用LLM相关性评分指导高斯过程主动学习,在嵌入空间传播相关性信号,实现全局探索。
- 实验表明,BAGEL在多个数据集上优于LLM重排序方法,能有效探索和捕获复杂的相关性分布。
📝 摘要(中文)
大型语言模型(LLMs)在零样本相关性建模方面表现出色,但其高计算成本使得passage检索成为一个预算受限的全局优化问题。现有方法被动地依赖于第一阶段的稠密检索器,导致两个局限性:(1)无法检索语义上不同簇中的相关passage,(2)无法将相关性信号传播到更广泛的语料库。为了解决这些限制,我们提出了基于LLM相关性评分指导的高斯过程贝叶斯主动学习(BAGEL),这是一个新颖的框架,它在嵌入空间中传播稀疏的LLM相关性信号,以指导全局探索。BAGEL基于LLM相关性分数,使用查询特定的高斯过程(GP)对整个嵌入空间中的多模态相关性分布进行建模。随后,它通过策略性地平衡高置信度区域的利用和不确定区域的探索,迭代地选择passage进行评分。在四个基准数据集和两个LLM骨干网络上的大量实验表明,BAGEL有效地探索和捕获了复杂的相关性分布,并且在所有四个数据集上,在相同的LLM预算下,优于LLM重排序方法。
🔬 方法详解
问题定义:论文旨在解决稠密检索中,现有方法依赖第一阶段检索结果,导致无法检索语义上差异较大的相关passage,且相关性信号无法有效传播到整个语料库的问题。现有方法的痛点在于无法充分利用LLM强大的相关性建模能力,同时又受限于LLM高昂的计算成本。
核心思路:论文的核心思路是利用LLM对少量passage进行相关性评分,然后使用高斯过程(GP)对整个嵌入空间的相关性分布进行建模,并将LLM的稀疏相关性信号传播到整个语料库。通过主动学习策略,迭代地选择最有价值的passage进行LLM评分,从而在有限的LLM预算下,最大化检索性能。
技术框架:BAGEL框架主要包含以下几个阶段:1) 使用初始的稠密检索器检索候选passage;2) 使用LLM对少量passage进行相关性评分;3) 使用高斯过程(GP)基于LLM评分对整个嵌入空间的相关性分布进行建模;4) 使用主动学习策略选择下一个要进行LLM评分的passage;5) 重复步骤2-4,直到达到LLM预算;6) 使用学习到的相关性分布对所有passage进行排序,返回最终的检索结果。
关键创新:BAGEL的关键创新在于:1) 将LLM的相关性评分与高斯过程相结合,实现相关性信号的有效传播;2) 提出了基于高斯过程的主动学习策略,能够在有限的LLM预算下,最大化检索性能。与现有方法相比,BAGEL能够更好地探索整个嵌入空间,并捕获复杂的相关性分布。
关键设计:BAGEL的关键设计包括:1) 使用高斯过程对相关性分布进行建模,选择合适的核函数(如RBF核);2) 设计主动学习策略,平衡exploration(探索不确定区域)和exploitation(利用高置信度区域),例如使用Expected Improvement或Upper Confidence Bound等准则;3) 合理设置LLM预算,即LLM可以评分的passage数量;4) 优化高斯过程的超参数,例如核函数的长度尺度和噪声方差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BAGEL在四个基准数据集上均优于LLM重排序方法。例如,在TREC-COVID数据集上,BAGEL在相同LLM预算下,相比于仅使用LLM重排序,性能提升显著。此外,实验还验证了BAGEL能够有效探索和捕获复杂的相关性分布,并且对不同的LLM骨干网络具有较好的适应性。
🎯 应用场景
该研究成果可应用于信息检索、问答系统、推荐系统等领域。通过利用LLM的强大语义理解能力和高斯过程的全局建模能力,可以有效提升检索的准确性和召回率,尤其是在需要处理复杂语义关系和长尾查询的场景下具有重要价值。未来可进一步探索如何将BAGEL应用于更大规模的数据集和更复杂的检索任务。
📄 摘要(原文)
While Large Language Models (LLMs) exhibit exceptional zero-shot relevance modeling, their high computational cost necessitates framing passage retrieval as a budget-constrained global optimization problem. Existing approaches passively rely on first-stage dense retrievers, which leads to two limitations: (1) failing to retrieve relevant passages in semantically distinct clusters, and (2) failing to propagate relevance signals to the broader corpus. To address these limitations, we propose Bayesian Active Learning with Gaussian Processes guided by LLM relevance scoring (BAGEL), a novel framework that propagates sparse LLM relevance signals across the embedding space to guide global exploration. BAGEL models the multimodal relevance distribution across the entire embedding space with a query-specific Gaussian Process (GP) based on LLM relevance scores. Subsequently, it iteratively selects passages for scoring by strategically balancing the exploitation of high-confidence regions with the exploration of uncertain areas. Extensive experiments across four benchmark datasets and two LLM backbones demonstrate that BAGEL effectively explores and captures complex relevance distributions and outperforms LLM reranking methods under the same LLM budget on all four datasets.