OSCAR: Online Soft Compression And Reranking

📄 arXiv: 2504.07109v1 📥 PDF

作者: Maxime Louis, Thibault Formal, Hervé Dejean, Stéphane Clinchant

分类: cs.IR, cs.AI, cs.CL

发布日期: 2025-03-17

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

OSCAR:提出一种在线软压缩和重排序方法,加速检索增强生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 在线压缩 软压缩 重排序 大型语言模型

📋 核心要点

  1. RAG面临计算瓶颈,传统方法要么损失信息,要么增加存储负担。
  2. OSCAR在线动态压缩检索信息,无需额外存储,并能同时进行重排序。
  3. 实验表明,OSCAR在加速推理的同时,几乎不损失LLM的准确性。

📝 摘要(中文)

检索增强生成(RAG)通过整合外部知识来增强大型语言模型(LLM),从而提高准确性和相关性。然而,随着检索规模的增长,扩展RAG管道在计算上仍然非常昂贵。为了解决这个问题,我们引入了OSCAR,一种新颖的查询相关的在线软压缩方法,它在保持性能的同时降低了计算开销。与传统的硬压缩方法(缩短检索到的文本)或软压缩方法(离线将文档映射到连续嵌入)不同,OSCAR在推理时动态压缩检索到的信息,消除了存储开销并实现了更高的压缩率。此外,我们将OSCAR扩展到同时执行重排序,进一步优化了RAG管道的效率。我们的实验表明,对于参数范围从1B到24B的LLM,OSCAR实现了最先进的性能,推理速度提高了2-5倍,并且准确性几乎没有损失。

🔬 方法详解

问题定义:检索增强生成(RAG)系统在处理大规模知识库时,面临着计算成本高昂的问题。传统的硬压缩方法通过截断文档来减少计算量,但会丢失关键信息。而软压缩方法虽然能保留信息,但需要预先计算并存储文档的嵌入表示,增加了存储开销。现有的方法难以在计算效率和信息完整性之间取得平衡。

核心思路:OSCAR的核心在于进行查询相关的在线软压缩。它不是预先计算文档的嵌入,而是在推理时,根据查询动态地选择和压缩检索到的文档。这种方式避免了额外的存储开销,并且能够根据不同的查询自适应地调整压缩策略,从而更好地保留与查询相关的信息。

技术框架:OSCAR主要包含三个阶段:检索(Retrieval)、在线软压缩(Online Soft Compression)和重排序(Reranking)。首先,使用传统的检索方法(如BM25或向量检索)从知识库中检索出候选文档。然后,OSCAR根据查询和候选文档的内容,动态地生成一个压缩表示。最后,利用这个压缩表示对候选文档进行重排序,选择最相关的文档用于LLM的生成。

关键创新:OSCAR的关键创新在于其在线软压缩机制。与离线计算文档嵌入的软压缩方法不同,OSCAR在推理时动态生成压缩表示,避免了存储开销。此外,OSCAR的压缩过程是查询相关的,能够更好地保留与查询相关的信息。同时,OSCAR将压缩和重排序两个步骤结合在一起,进一步提高了RAG管道的效率。

关键设计:OSCAR使用一个轻量级的神经网络来学习压缩函数。该网络以查询和文档作为输入,输出一个压缩向量。压缩向量的维度可以根据计算资源进行调整,从而控制压缩率。损失函数的设计目标是使压缩向量能够尽可能地保留与查询相关的信息。在重排序阶段,可以使用一个简单的线性模型或更复杂的神经网络来根据压缩向量对候选文档进行排序。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OSCAR在多个基准数据集上取得了最先进的性能。与传统的RAG方法相比,OSCAR在推理速度上提高了2-5倍,同时准确性几乎没有损失。即使对于参数量高达24B的LLM,OSCAR也能有效地加速推理过程,证明了其良好的可扩展性。

🎯 应用场景

OSCAR可应用于各种需要检索增强生成技术的场景,例如问答系统、对话机器人、知识图谱推理等。通过降低RAG管道的计算成本,OSCAR可以支持更大规模的知识库和更复杂的查询,从而提高LLM的准确性和实用性。该方法尤其适用于资源受限的环境,例如移动设备或边缘计算平台。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by integrating external knowledge, leading to improved accuracy and relevance. However, scaling RAG pipelines remains computationally expensive as retrieval sizes grow. To address this, we introduce OSCAR, a novel query-dependent online soft compression method that reduces computational overhead while preserving performance. Unlike traditional hard compression methods, which shorten retrieved texts, or soft compression approaches, which map documents to continuous embeddings offline, OSCAR dynamically compresses retrieved information at inference time, eliminating storage overhead and enabling higher compression rates. Additionally, we extend OSCAR to simultaneously perform reranking, further optimizing the efficiency of the RAG pipeline. Our experiments demonstrate state-of-the-art performance with a 2-5x speed-up in inference and minimal to no loss in accuracy for LLMs ranging from 1B to 24B parameters. The models are available at: https://huggingface.co/collections/naver/oscar-67d446a8e3a2551f57464295.