Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers
作者: Shijie Chen, Bernal Jiménez Gutiérrez, Yu Su
分类: cs.CL, cs.IR
发布日期: 2024-10-03 (更新: 2025-02-28)
备注: ICLR 2025
💡 一句话要点
提出In-Context Re-ranking (ICR),利用LLM注意力机制实现高效零样本重排序。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本重排序 大型语言模型 注意力机制 信息检索 效率优化
📋 核心要点
- 现有基于LLM的重排序方法依赖于生成能力,限制了其在特定或专有模型上的应用,效率较低。
- 论文提出In-Context Re-ranking (ICR)方法,通过分析查询引起的注意力模式变化,实现高效重排序。
- 实验表明,ICR在标准信息检索基准上优于RankGPT,并将延迟降低了60%以上,尤其在复杂任务上表现出色。
📝 摘要(中文)
信息检索(IR)系统在现代数字生活中扮演着至关重要的角色,并通过检索增强生成(RAG)在新一代生成式AI中持续发挥作用。大型语言模型(LLM)凭借其强大的语言处理能力和卓越的通用性,已成为IR系统中零样本重排序的热门选择。目前,基于LLM的重排序方法依赖于强大的生成能力,这限制了它们的使用,使其只能应用于专用或强大的专有模型。鉴于这些限制,我们提出疑问:自回归生成对于LLM执行重排序是否是必要且最优的?我们假设LLM中存在与重排序相关的丰富信号,这些信号可能没有通过生成得到充分利用。为了更直接地利用这些信号,我们提出上下文重排序(ICR),这是一种新颖的方法,它利用搜索查询引起的注意力模式变化来进行准确和高效的重排序。为了减轻LLM中的内在偏差,我们提出了一种使用无内容查询的校准方法。由于没有生成,ICR仅需要两次($O(1)$)前向传递即可对$N$个文档进行重排序,这使其比至少需要$O(N)$次前向传递的生成式重排序方法效率更高。我们新颖的设计还使ICR能够应用于任何LLM,而无需专门的训练,同时保证了良好的排序。在标准单跳和多跳信息检索基准上,使用两个流行的开源LLM进行的大量实验表明,ICR优于RankGPT,同时在实践中将延迟降低了60%以上。通过详细的分析,我们表明ICR的性能在需要更复杂的重排序信号的任务上尤其强大。我们的发现呼吁进一步探索利用文本生成之外的开源LLM的新方法。
🔬 方法详解
问题定义:现有基于LLM的重排序方法主要依赖于自回归生成,需要对每个文档进行生成式推理,计算成本高昂,效率低下。此外,这种方法通常需要专门的模型或强大的专有模型,限制了其通用性和可扩展性。因此,如何利用LLM的内在能力,实现高效且通用的零样本重排序是一个关键问题。
核心思路:论文的核心思路是,LLM中蕴含着丰富的与重排序相关的信号,这些信号可以通过分析注意力模式的变化来直接利用,而无需依赖自回归生成。通过观察查询对文档注意力分布的影响,可以推断文档与查询的相关性,从而实现高效的重排序。
技术框架:ICR方法的整体框架包括以下几个步骤:1) 将查询和文档输入LLM;2) 计算查询引起的注意力模式变化;3) 使用注意力变化作为重排序的信号;4) 使用无内容查询进行校准,以减轻LLM的内在偏差。整个过程只需要两次前向传递,复杂度为O(1)。
关键创新:ICR的关键创新在于,它摒弃了传统的生成式重排序方法,直接利用LLM的注意力机制进行重排序。这种方法无需进行耗时的文本生成,大大提高了重排序的效率。此外,ICR方法可以应用于任何LLM,无需专门的训练,具有良好的通用性。
关键设计:ICR的关键设计包括:1) 使用KL散度或余弦相似度等指标来衡量注意力模式的变化;2) 设计有效的校准方法,以消除LLM的内在偏差,例如使用空查询或随机查询;3) 将注意力变化与文档长度等因素进行结合,以进一步提高重排序的准确性。具体参数设置和网络结构取决于所使用的LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ICR在两个流行的开源LLM上均取得了显著的性能提升。在标准单跳和多跳信息检索基准上,ICR优于RankGPT,并且在实践中将延迟降低了60%以上。尤其是在需要更复杂的重排序信号的任务上,ICR的性能表现更为突出,证明了其有效性和优越性。
🎯 应用场景
该研究成果可广泛应用于信息检索、问答系统、推荐系统等领域。通过利用ICR方法,可以显著提高这些系统中重排序的效率和准确性,从而提升用户体验。此外,该方法还可以促进开源LLM在信息检索领域的应用,降低开发成本,加速相关技术的发展。
📄 摘要(原文)
Information retrieval (IR) systems have played a vital role in modern digital life and have cemented their continued usefulness in this new era of generative AI via retrieval-augmented generation. With strong language processing capabilities and remarkable versatility, large language models (LLMs) have become popular choices for zero-shot re-ranking in IR systems. So far, LLM-based re-ranking methods rely on strong generative capabilities, which restricts their use to either specialized or powerful proprietary models. Given these restrictions, we ask: is autoregressive generation necessary and optimal for LLMs to perform re-ranking? We hypothesize that there are abundant signals relevant to re-ranking within LLMs that might not be used to their full potential via generation. To more directly leverage such signals, we propose in-context re-ranking (ICR), a novel method that leverages the change in attention pattern caused by the search query for accurate and efficient re-ranking. To mitigate the intrinsic biases in LLMs, we propose a calibration method using a content-free query. Due to the absence of generation, ICR only requires two ($O(1)$) forward passes to re-rank $N$ documents, making it substantially more efficient than generative re-ranking methods that require at least $O(N)$ forward passes. Our novel design also enables ICR to be applied to any LLM without specialized training while guaranteeing a well-formed ranking. Extensive experiments with two popular open-weight LLMs on standard single-hop and multi-hop information retrieval benchmarks show that ICR outperforms RankGPT while cutting the latency by more than 60% in practice. Through detailed analyses, we show that ICR's performance is specially strong on tasks that require more complex re-ranking signals. Our findings call for further exploration on novel ways of utilizing open-weight LLMs beyond text generation.