ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression

📄 arXiv: 2604.22180v1 📥 PDF

作者: Xiaojie Ke, Shuai Zhang, Liansheng Sun, Yongjin Wang, Hengjun Jiang, Xiangkun Liu, Cunxin Gu, Jian Xu, Guanjun Jiang

分类: cs.IR, cs.AI

发布日期: 2026-04-24


💡 一句话要点

ResRank:通过残差通道压缩和端到端联合训练统一检索和列表式重排序

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息检索 列表式重排序 大型语言模型 段落压缩 残差连接

📋 核心要点

  1. 现有基于LLM的重排序方法依赖完整文本输入,导致“中间丢失”和推理延迟问题,限制了工业应用。
  2. ResRank通过Encoder-LLM压缩段落为单个嵌入,并引入残差连接缓解表示空间不一致,提升排序效果。
  3. ResRank采用端到端联合训练,优化检索和重排序目标对齐,实验表明在效率和效果上均优于现有方法。

📝 摘要(中文)

基于大型语言模型(LLM)的列表式重排序已成为信息检索中实现最先进排序效果的主流范式。然而,它依赖于将完整的段落文本输入LLM,这带来了两个关键瓶颈:“中间丢失”现象随着输入长度的增加而降低排序质量,并且推理延迟与序列长度呈超线性关系,使其在工业部署中不切实际。本文提出了ResRank,一个统一的检索-重排序框架,从根本上解决了这两个挑战。受多模态LLM将视觉输入投影到紧凑的token表示的启发,ResRank采用Encoder-LLM将每个候选段落压缩成单个嵌入,然后将其与查询文本一起输入到Reranker-LLM进行列表式排序。为了缓解压缩表示空间和排序空间之间的不一致,我们引入了一种残差连接结构,将编码器嵌入与重排序器的上下文隐藏状态相结合。此外,我们用一步式基于余弦相似度的评分机制取代了传统的自回归解码,完全消除了生成瓶颈。ResRank通过精心设计的双阶段、多任务、端到端联合优化策略进行训练,同时训练编码器和重排序器,从而实现检索和重排序之间的学习目标对齐,同时大大降低了训练复杂度。在TREC Deep Learning和八个BEIR基准数据集上的大量实验表明,与现有方法相比,ResRank实现了具有竞争力或更优越的排序效果,同时需要零生成的token并且每个段落仅处理一个token,从而在效果和效率之间实现了根本性的更好平衡。

🔬 方法详解

问题定义:现有基于LLM的列表式重排序方法,需要将完整段落文本输入LLM,导致两个主要问题:一是“中间丢失”现象,即随着输入序列长度增加,模型对中间信息的关注度降低,影响排序质量;二是推理延迟与序列长度呈超线性关系,使得模型在实际工业部署中效率低下。

核心思路:ResRank的核心思路是将检索和重排序统一到一个框架中,并借鉴多模态LLM的思想,将每个段落压缩成单个嵌入表示,从而大幅缩短输入序列长度,提高效率。同时,为了弥补压缩表示可能带来的信息损失,引入残差连接,将编码器嵌入与重排序器的上下文信息融合。

技术框架:ResRank框架包含两个主要模块:Encoder-LLM和Reranker-LLM。Encoder-LLM负责将每个候选段落压缩成单个嵌入向量。Reranker-LLM接收查询文本和段落嵌入,进行列表式重排序。整个框架采用端到端联合训练的方式,同时优化编码器和重排序器。

关键创新:ResRank的关键创新在于:1) 使用Encoder-LLM进行段落压缩,显著减少输入序列长度;2) 引入残差连接,缓解压缩表示带来的信息损失;3) 采用一步式基于余弦相似度的评分机制,取代了传统的自回归解码,消除了生成瓶颈;4) 采用双阶段、多任务、端到端联合优化策略,实现检索和重排序之间的学习目标对齐。

关键设计:Encoder-LLM和Reranker-LLM均基于Transformer架构。残差连接将Encoder-LLM输出的段落嵌入与Reranker-LLM中间层的隐藏状态相加。损失函数采用多任务学习,包括检索损失和排序损失。训练过程分为两个阶段:首先预训练Encoder-LLM,然后联合训练Encoder-LLM和Reranker-LLM。

🖼️ 关键图片

fig_0

📊 实验亮点

ResRank在TREC Deep Learning和八个BEIR基准数据集上进行了广泛的实验。实验结果表明,ResRank在排序效果上与现有方法相比具有竞争力甚至更优越,同时实现了零生成的token,并且每个段落仅处理一个token,显著提高了效率。例如,在某些数据集上,ResRank在保持排序效果的同时,推理速度提升了数倍。

🎯 应用场景

ResRank适用于各种需要高效信息检索和排序的场景,例如搜索引擎、问答系统、推荐系统等。通过降低推理延迟和提高排序质量,ResRank可以提升用户体验,并降低计算成本。该研究对于推动LLM在工业界的应用具有重要意义。

📄 摘要(原文)

Large language model (LLM) based listwise reranking has emerged as the dominant paradigm for achieving state-of-the-art ranking effectiveness in information retrieval. However, its reliance on feeding full passage texts into the LLM introduces two critical bottlenecks: the "lost in the middle" phenomenon degrades ranking quality as input length grows, and the inference latency scales super-linearly with sequence length, rendering it impractical for industrial deployment. In this paper, we present ResRank, a unified retrieval-reranking framework that fundamentally addresses both challenges. Inspired by multimodal LLMs that project visual inputs into compact token representations, ResRank employs an Encoder-LLM to compress each candidate passage into a single embedding, which is then fed alongside the query text into a Reranker-LLM for listwise ranking. To alleviate the misalignment between the compressed representation space and the ranking space, we introduce a residual connection structure that combines encoder embeddings with contextualized hidden states from the reranker. Furthermore, we replace the conventional autoregressive decoding with a one-step cosine-similarity-based scoring mechanism, eliminating the generation bottleneck entirely. ResRank is trained through a carefully designed dual-stage, multi-task, end-to-end joint optimization strategy that simultaneously trains the encoder and reranker, achieving learning objective alignment between retrieval and reranking while substantially reducing training complexity. Extensive experiments on TREC Deep Learning and eight BEIR benchmark datasets demonstrate that ResRank achieves competitive or superior ranking effectiveness compared to existing approaches while requiring zero generated tokens and processing only one token per passage, yielding a fundamentally better balance between effectiveness and efficiency.