How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models
作者: Abdelrahman Abdallah, Bhawna Piryani, Jamshid Mozafari, Mohammed Ali, Adam Jatowt
分类: cs.CL, cs.IR
发布日期: 2025-08-22
备注: EMNLP Findings 2025
🔗 代码/项目: GITHUB
💡 一句话要点
系统评估LLM重排序模型在信息检索中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 重排序 信息检索 大型语言模型 性能评估 机器学习
📋 核心要点
- 现有的重排序方法在处理新查询时的泛化能力不足,导致性能差异明显。
- 论文通过系统评估不同重排序模型,特别关注LLM与轻量级模型的比较,探索其性能差异的原因。
- 实验结果显示,LLM重排序器在熟悉查询上表现优越,但在新查询上的表现与轻量级模型相当,且查询的新颖性显著影响重排序效果。
📝 摘要(中文)
本研究对最先进的重排序方法进行了系统和全面的实证评估,涵盖了基于大型语言模型(LLM)、轻量级上下文和零样本方法在信息检索任务中的表现。我们评估了22种方法,包括40种变体,并在多个基准数据集上进行测试。研究的主要目标是通过控制和公平的比较,确定LLM重排序器与轻量级模型之间的性能差异,并阐明观察到的差异的潜在原因。结果表明,尽管LLM重排序器在熟悉查询上表现优越,但其对新查询的泛化能力存在差异,轻量级模型在效率上表现相当。
🔬 方法详解
问题定义:本研究旨在解决现有重排序方法在新查询上的泛化能力不足的问题,尤其是LLM重排序器与轻量级模型之间的性能差异。
核心思路:通过系统评估22种重排序方法,分析不同模型在信息检索任务中的表现,特别是对新查询的适应能力。
技术框架:研究采用多个基准数据集(如TREC DL19、DL20和BEIR)进行评估,并设计了一个新数据集以测试未见过的查询。评估过程中控制了训练数据重叠、模型架构和计算效率等因素。
关键创新:本研究的创新点在于系统性地比较了LLM重排序器与轻量级模型的性能,揭示了在新查询上的泛化能力差异及其原因。
关键设计:在实验中,使用了多种模型变体,并通过公平的比较方法分析了不同模型的训练数据重叠和架构对重排序性能的影响。
📊 实验亮点
实验结果表明,LLM重排序器在熟悉查询上的性能优于轻量级模型,但在新查询上的泛化能力存在差异。具体而言,LLM模型在熟悉查询上的提升幅度达到XX%,而轻量级模型在新查询上的效率表现相当,显示出其在特定场景下的竞争力。
🎯 应用场景
该研究的潜在应用领域包括信息检索系统、搜索引擎优化和推荐系统等。通过提高重排序模型在新查询上的表现,可以显著提升用户的检索体验和信息获取效率,具有重要的实际价值和未来影响。
📄 摘要(原文)
In this work, we present a systematic and comprehensive empirical evaluation of state-of-the-art reranking methods, encompassing large language model (LLM)-based, lightweight contextual, and zero-shot approaches, with respect to their performance in information retrieval tasks. We evaluate in total 22 methods, including 40 variants (depending on used LLM) across several established benchmarks, including TREC DL19, DL20, and BEIR, as well as a novel dataset designed to test queries unseen by pretrained models. Our primary goal is to determine, through controlled and fair comparisons, whether a performance disparity exists between LLM-based rerankers and their lightweight counterparts, particularly on novel queries, and to elucidate the underlying causes of any observed differences. To disentangle confounding factors, we analyze the effects of training data overlap, model architecture, and computational efficiency on reranking performance. Our findings indicate that while LLM-based rerankers demonstrate superior performance on familiar queries, their generalization ability to novel queries varies, with lightweight models offering comparable efficiency. We further identify that the novelty of queries significantly impacts reranking effectiveness, highlighting limitations in existing approaches. https://github.com/DataScienceUIBK/llm-reranking-generalization-study