Latent Abstraction for Retrieval-Augmented Generation

📄 arXiv: 2604.17866v1 📥 PDF

作者: Ha Lan N. T, Minh-Anh Nguyen, Dung D. Le

分类: cs.CL, cs.AI

发布日期: 2026-04-20


💡 一句话要点

提出LAnR:一种在LLM隐空间内进行检索增强生成的新框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 隐空间表示 问答系统 自适应检索 知识检索 模型集成

📋 核心要点

  1. 现有RAG方法依赖于生成文本查询,检索器与生成器分离,限制了LLM表征能力的利用。
  2. LAnR在LLM隐空间内统一执行编码、检索和生成,避免了文本查询,提升了模型集成度。
  3. 实验表明,LAnR在多个QA基准上优于现有RAG方法,并提高了推理效率。

📝 摘要(中文)

检索增强生成(RAG)已成为利用外部知识增强大型语言模型(LLM)的标准方法,可以缓解幻觉并提高事实性。然而,现有的系统依赖于在每个跳跃点生成自然语言查询,并在检索器和生成器之间保持严格的架构分离,从而无法充分利用LLM的完整表征能力。我们提出了LAnR(用于RAG的潜在抽象),这是一个统一的框架,其中单个LLM完全在其自身的潜在空间内联合执行编码、检索和生成。LAnR不是生成文本查询,而是从指定 exttt{[PRED]} token的隐藏状态生成密集检索向量,并使用它们来匹配来自同一模型的编码文档表示。此外,LAnR使用这些隐藏状态上的轻量级MLP控制头自适应地决定何时检索到足够的证据,从而消除了单独的检索器和显式的token级别停止推理。这种设计受到了我们的经验观察的推动,即答案token熵可靠地指示了检索充分性。在涵盖单跳和多跳设置的六个QA基准上的大量实验表明,LAnR优于现有的RAG方法,同时通过减少检索调用次数和更紧密的模型集成来提高推理效率。

🔬 方法详解

问题定义:现有RAG方法的主要痛点在于检索器和生成器之间的分离,以及依赖于生成自然语言查询进行检索。这种分离限制了LLM的表征能力,并且增加了计算开销。此外,现有方法通常需要显式的停止推理机制来决定何时停止检索,这增加了系统的复杂性。

核心思路:LAnR的核心思路是将检索和生成过程统一到LLM的隐空间中。通过在隐空间中进行检索,可以充分利用LLM的表征能力,避免了生成文本查询的需要。此外,LAnR使用一个轻量级的MLP控制头来根据答案token熵自适应地决定何时停止检索,从而简化了停止推理过程。

技术框架:LAnR的整体框架包括以下几个主要模块:1) 编码器:使用LLM对输入问题和文档进行编码,得到它们的隐空间表示。2) 检索器:从LLM的隐藏状态中提取密集检索向量,并使用它们来匹配编码的文档表示。3) 生成器:使用LLM根据检索到的文档生成答案。4) 控制头:使用一个轻量级的MLP来根据答案token熵自适应地决定何时停止检索。

关键创新:LAnR最重要的技术创新点在于它在LLM的隐空间中统一了检索和生成过程。与现有方法相比,LAnR避免了生成文本查询的需要,并且可以充分利用LLM的表征能力。此外,LAnR使用一个轻量级的MLP控制头来根据答案token熵自适应地决定何时停止检索,从而简化了停止推理过程。

关键设计:LAnR的关键设计包括:1) 使用LLM的隐藏状态作为密集检索向量。2) 使用一个轻量级的MLP控制头来根据答案token熵自适应地决定何时停止检索。3) 使用 exttt{[PRED]} token来指示需要进行检索的位置。损失函数方面,可能涉及到对比学习损失来优化隐空间表示,以及生成任务的交叉熵损失。具体参数设置未在摘要中详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LAnR在六个QA基准测试中表现优于现有的RAG方法。摘要中没有提供具体的性能数据和提升幅度,但强调了LAnR通过减少检索调用次数和更紧密的模型集成来提高推理效率。具体的实验结果需要在论文正文中查找。

🎯 应用场景

LAnR具有广泛的应用前景,可以应用于各种需要利用外部知识的自然语言处理任务,例如问答、对话生成、文本摘要等。该方法可以提高LLM的准确性和可靠性,并减少幻觉的产生。此外,LAnR的统一框架可以简化RAG系统的设计和部署,并提高推理效率。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) has become a standard approach for enhancing large language models (LLMs) with external knowledge, mitigating hallucinations, and improving factuality. However, existing systems rely on generating natural language queries at each hop and maintaining a strict architectural separation between retriever and generator, preventing them from leveraging the full representational capacity of the LLM. We propose \textbf{LAnR} (Latent Abstraction for RAG), a unified framework in which a single LLM jointly performs encoding, retrieval, and generation entirely within its own latent space. Rather than generating textual queries, LAnR produces dense retrieval vectors from the hidden states of a designated \texttt{[PRED]} token and uses them to match against encoded document representations from the same model. Furthermore, LAnR adaptively decides when sufficient evidence has been retrieved using a lightweight MLP control head over those same hidden states, eliminating both the separate retriever and explicit token-level stopping reasoning. This design is motivated by our empirical observation that answer token entropy reliably signals retrieval sufficiency. Extensive experiments on six QA benchmarks spanning single-hop and multi-hop settings demonstrate that LAnR outperforms existing RAG methods, while achieving improved inference efficiency through reduced number of retrieval calls and tighter model integration.