Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models

📄 arXiv: 2406.14848v2 📥 PDF

作者: Qi Liu, Bo Wang, Nan Wang, Jiaxin Mao

分类: cs.CL, cs.IR

发布日期: 2024-06-21 (更新: 2025-01-28)

备注: Accepted by WWW 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出PE-Rank,利用段落嵌入加速大语言模型列表式重排序。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 段落排序 列表式排序 嵌入表示 效率优化

📋 核心要点

  1. RankGPT等基于大语言模型的列表式排序方法效果显著,但受限于LLM的上下文长度和推理延迟,效率较低。
  2. PE-Rank将单段落嵌入作为上下文压缩,并视每个段落为特殊token,直接输入LLM,减少输入长度。
  3. PE-Rank采用动态约束解码空间到特殊token的推理方法,加速解码过程,并在多个数据集上验证了效率和效果。

📝 摘要(中文)

本文提出PE-Rank,旨在解决大语言模型(LLM)在段落排序中效率受限的问题,特别是RankGPT等列表式方法。这些方法的效率瓶颈在于LLM的最大上下文长度和较高的推理延迟。PE-Rank利用单段落嵌入作为有效的上下文压缩方式,将每个段落视为特殊token,直接输入LLM,从而减少输入长度。此外,引入了一种动态约束解码空间到这些特殊token的推理方法,加速解码过程。通过列表式学习排序损失进行训练,使模型适应重排序任务。在多个基准数据集上的评估结果表明,PE-Rank在预填充和解码方面显著提高了效率,同时保持了具有竞争力的排序效果。

🔬 方法详解

问题定义:现有基于大语言模型的列表式排序方法,如RankGPT,在段落排序任务中取得了领先效果。然而,这些方法面临着效率瓶颈,主要体现在两个方面:一是大语言模型存在最大上下文长度的限制,导致无法一次性处理大量段落;二是大语言模型的推理延迟相对较高,影响了排序速度。因此,如何提高大语言模型在列表式排序中的效率,同时保持排序效果,是一个亟待解决的问题。

核心思路:PE-Rank的核心思路是利用单段落嵌入作为上下文压缩的方式,将每个段落表示为一个低维向量,从而显著减少输入到大语言模型的token数量。同时,将每个段落视为一个特殊的token,并设计一种特殊的解码方式,只允许模型在这些特殊token中进行选择,从而加速解码过程。这种方法既降低了计算复杂度,又保留了段落的关键信息。

技术框架:PE-Rank的整体框架包括以下几个主要步骤:1) 段落嵌入:使用预训练的段落嵌入模型(如Sentence-BERT)将每个段落编码成一个向量表示。2) 输入构建:将所有段落的嵌入向量拼接成一个序列,作为大语言模型的输入。每个嵌入向量被视为一个特殊的token。3) 大语言模型推理:使用大语言模型对输入的嵌入序列进行推理,预测每个段落的相关性得分。4) 动态解码约束:在解码过程中,动态地约束解码空间,只允许模型选择与段落嵌入对应的特殊token。5) 排序:根据大语言模型预测的相关性得分对段落进行排序。

关键创新:PE-Rank的关键创新在于以下两点:1) 段落嵌入作为特殊token:将段落嵌入直接输入大语言模型,避免了将段落文本转换为token序列的过程,从而显著减少了输入长度。2) 动态解码约束:通过约束解码空间,加速了解码过程,提高了推理效率。与传统的列表式排序方法相比,PE-Rank在保证排序效果的同时,显著提高了效率。

关键设计:PE-Rank的关键设计包括:1) 损失函数:采用列表式学习排序损失函数,如ListNet或RankNet,以优化模型的排序性能。2) 嵌入模型选择:选择合适的预训练段落嵌入模型,以保证段落嵌入的质量。3) 解码约束策略:设计有效的解码约束策略,以平衡解码速度和排序效果。4) 模型微调:使用排序数据集对大语言模型进行微调,以适应重排序任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PE-Rank在多个基准数据集上取得了显著的效率提升,同时保持了具有竞争力的排序效果。具体来说,PE-Rank在预填充和解码阶段均实现了显著的加速,与传统的RankGPT相比,推理速度提升了数倍。在排序效果方面,PE-Rank与RankGPT相当,甚至在某些数据集上略有提升。这些结果表明,PE-Rank是一种高效且有效的段落排序方法。

🎯 应用场景

PE-Rank可应用于各种需要高效段落排序的场景,例如搜索引擎、问答系统、推荐系统等。通过降低大语言模型排序的计算成本,可以支持更大规模的文档排序,提高用户体验。此外,该方法还可以应用于移动设备等资源受限的环境中,实现轻量级的排序服务。未来,PE-Rank可以进一步扩展到其他类型的排序任务,例如图像排序、视频排序等。

📄 摘要(原文)

Recent studies have demonstrated the effectiveness of using large language language models (LLMs) in passage ranking. The listwise approaches, such as RankGPT, have become new state-of-the-art in this task. However, the efficiency of RankGPT models is limited by the maximum context length and relatively high latency of LLM inference. To address these issues, in this paper, we propose PE-Rank, leveraging the single passage embedding as a good context compression for efficient listwise passage reranking. By treating each passage as a special token, we can directly input passage embeddings into LLMs, thereby reducing input length. Additionally, we introduce an inference method that dynamically constrains the decoding space to these special tokens, accelerating the decoding process. For adapting the model to reranking, we employ listwise learning to rank loss for training. Evaluation results on multiple benchmarks demonstrate that PE-Rank significantly improves efficiency in both prefilling and decoding, while maintaining competitive ranking effectiveness. The Code is available at https://github.com/liuqi6777/pe_rank.