Maximally-Informative Retrieval for State Space Model Generation

📄 arXiv: 2506.12149v1 📥 PDF

作者: Evan Becker, Benjamin Bowman, Matthew Trager, Tian Yu Liu, Luca Zancato, Wei Xia, Stefano Soatto

分类: cs.CL

发布日期: 2025-06-13


💡 一句话要点

提出RICO方法以优化状态空间模型生成中的信息检索

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 信息检索 大型语言模型 无监督学习 文档选择 模型优化 自然语言处理 推理系统

📋 核心要点

  1. 现有方法在推理时无法有效利用所有可用信息,导致模型在处理查询时的不确定性较高。
  2. 论文提出的RICO方法通过利用LLM的梯度信息,学习最优文档组合,从而提升推理效果。
  3. 实验结果表明,RICO在无监督损失目标下的表现与BM25相当,且在最终预测质量上超越了微调的密集检索器。

📝 摘要(中文)

本论文提出了一种新的检索方法——检索上下文优化(RICO),旨在通过利用大型语言模型(LLM)自身的梯度信息来优化文档的选择,从而在推理时减少模型的不确定性。现有的检索增强生成方法(RAG)依赖外部启发式方法进行文档检索,而RICO则通过模型的直接反馈来实现更优的文档组合。理论上,论文展示了标准的top-$k$检索可以近似该优化过程,并通过无监督损失目标的最小化,实验证明RICO在检索性能上与BM25相当,且无需微调,且在最终预测质量上常常超越微调的密集检索器如E5。

🔬 方法详解

问题定义:本论文旨在解决在推理过程中如何有效选择与当前查询相关的文档的问题。现有方法在处理大规模数据集时,往往无法充分利用所有信息,导致模型性能下降。

核心思路:RICO方法的核心思想是通过利用大型语言模型的梯度信息,优化文档的选择,以减少模型在特定查询下的不确定性。这种设计使得模型能够更好地适应查询的需求。

技术框架:RICO的整体架构包括查询输入、文档检索和基于模型反馈的优化三个主要模块。首先,输入查询后,系统会检索相关文档,然后通过模型的梯度信息对文档进行优化选择。

关键创新:RICO的主要创新在于其利用模型自身的反馈进行文档检索,而不是依赖外部启发式方法。这种方法使得文档选择更加精准,提升了推理的质量。

关键设计:在技术细节上,RICO采用了无监督的损失函数形式,具体为问题困惑度,以此来优化文档选择过程。此外,模型的参数设置和网络结构设计也经过精心调整,以确保最佳性能。

📊 实验亮点

实验结果显示,RICO在无监督损失目标下的检索性能与BM25相当,且在最终预测质量上常常超越微调的密集检索器E5,表明该方法在信息检索领域的有效性和创新性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、信息检索和智能问答系统等。通过优化文档检索过程,RICO可以显著提升模型在实际应用中的响应速度和准确性,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Given a query and dataset, the optimal way of answering the query is to make use all the information available. Modern LLMs exhibit impressive ability to memorize training data, but data not deemed important during training is forgotten, and information outside that training set cannot be made use of. Processing an entire dataset at inference time is infeasible due to the bounded nature of model resources (e.g. context size in transformers or states in state space models), meaning we must resort to external memory. This constraint naturally leads to the following problem: How can we decide based on the present query and model, what among a virtually unbounded set of known data matters for inference? To minimize model uncertainty for a particular query at test-time, we introduce Retrieval In-Context Optimization (RICO), a retrieval method that uses gradients from the LLM itself to learn the optimal mixture of documents for answer generation. Unlike traditional retrieval-augmented generation (RAG), which relies on external heuristics for document retrieval, our approach leverages direct feedback from the model. Theoretically, we show that standard top-$k$ retrieval with model gradients can approximate our optimization procedure, and provide connections to the leave-one-out loss. We demonstrate empirically that by minimizing an unsupervised loss objective in the form of question perplexity, we can achieve comparable retriever metric performance to BM25 with \emph{no finetuning}. Furthermore, when evaluated on quality of the final prediction, our method often outperforms fine-tuned dense retrievers such as E5.