Latent Abstraction for Retrieval-Augmented Generation

作者: Ha Lan N. T, Minh-Anh Nguyen, Dung D. Le

分类: cs.CL, cs.AI

发布日期: 2026-04-20

💡 一句话要点

提出LAnR：一种在LLM隐空间内进行检索增强生成的新框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 隐空间表示 问答系统 自适应检索 知识检索 模型集成

📋 核心要点

现有RAG方法依赖于生成文本查询，检索器与生成器分离，限制了LLM表征能力的利用。
LAnR在LLM隐空间内统一执行编码、检索和生成，避免了文本查询，提升了模型集成度。
实验表明，LAnR在多个QA基准上优于现有RAG方法，并提高了推理效率。

📝 摘要（中文）

检索增强生成(RAG)已成为利用外部知识增强大型语言模型(LLM)的标准方法，可以缓解幻觉并提高事实性。然而，现有的系统依赖于在每个跳跃点生成自然语言查询，并在检索器和生成器之间保持严格的架构分离，从而无法充分利用LLM的完整表征能力。我们提出了LAnR（用于RAG的潜在抽象），这是一个统一的框架，其中单个LLM完全在其自身的潜在空间内联合执行编码、检索和生成。LAnR不是生成文本查询，而是从指定 exttt{[PRED]} token的隐藏状态生成密集检索向量，并使用它们来匹配来自同一模型的编码文档表示。此外，LAnR使用这些隐藏状态上的轻量级MLP控制头自适应地决定何时检索到足够的证据，从而消除了单独的检索器和显式的token级别停止推理。这种设计受到了我们的经验观察的推动，即答案token熵可靠地指示了检索充分性。在涵盖单跳和多跳设置的六个QA基准上的大量实验表明，LAnR优于现有的RAG方法，同时通过减少检索调用次数和更紧密的模型集成来提高推理效率。

🔬 方法详解

问题定义：现有RAG方法的主要痛点在于检索器和生成器之间的分离，以及依赖于生成自然语言查询进行检索。这种分离限制了LLM的表征能力，并且增加了计算开销。此外，现有方法通常需要显式的停止推理机制来决定何时停止检索，这增加了系统的复杂性。

核心思路：LAnR的核心思路是将检索和生成过程统一到LLM的隐空间中。通过在隐空间中进行检索，可以充分利用LLM的表征能力，避免了生成文本查询的需要。此外，LAnR使用一个轻量级的MLP控制头来根据答案token熵自适应地决定何时停止检索，从而简化了停止推理过程。

技术框架：LAnR的整体框架包括以下几个主要模块：1) 编码器：使用LLM对输入问题和文档进行编码，得到它们的隐空间表示。2) 检索器：从LLM的隐藏状态中提取密集检索向量，并使用它们来匹配编码的文档表示。3) 生成器：使用LLM根据检索到的文档生成答案。4) 控制头：使用一个轻量级的MLP来根据答案token熵自适应地决定何时停止检索。

关键创新：LAnR最重要的技术创新点在于它在LLM的隐空间中统一了检索和生成过程。与现有方法相比，LAnR避免了生成文本查询的需要，并且可以充分利用LLM的表征能力。此外，LAnR使用一个轻量级的MLP控制头来根据答案token熵自适应地决定何时停止检索，从而简化了停止推理过程。

关键设计：LAnR的关键设计包括：1) 使用LLM的隐藏状态作为密集检索向量。2) 使用一个轻量级的MLP控制头来根据答案token熵自适应地决定何时停止检索。3) 使用 exttt{[PRED]} token来指示需要进行检索的位置。损失函数方面，可能涉及到对比学习损失来优化隐空间表示，以及生成任务的交叉熵损失。具体参数设置未在摘要中详细说明。

🖼️ 关键图片

📊 实验亮点

LAnR在六个QA基准测试中表现优于现有的RAG方法。摘要中没有提供具体的性能数据和提升幅度，但强调了LAnR通过减少检索调用次数和更紧密的模型集成来提高推理效率。具体的实验结果需要在论文正文中查找。

🎯 应用场景

LAnR具有广泛的应用前景，可以应用于各种需要利用外部知识的自然语言处理任务，例如问答、对话生成、文本摘要等。该方法可以提高LLM的准确性和可靠性，并减少幻觉的产生。此外，LAnR的统一框架可以简化RAG系统的设计和部署，并提高推理效率。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) has become a standard approach for enhancing large language models (LLMs) with external knowledge, mitigating hallucinations, and improving factuality. However, existing systems rely on generating natural language queries at each hop and maintaining a strict architectural separation between retriever and generator, preventing them from leveraging the full representational capacity of the LLM. We propose \textbf{LAnR} (Latent Abstraction for RAG), a unified framework in which a single LLM jointly performs encoding, retrieval, and generation entirely within its own latent space. Rather than generating textual queries, LAnR produces dense retrieval vectors from the hidden states of a designated \texttt{[PRED]} token and uses them to match against encoded document representations from the same model. Furthermore, LAnR adaptively decides when sufficient evidence has been retrieved using a lightweight MLP control head over those same hidden states, eliminating both the separate retriever and explicit token-level stopping reasoning. This design is motivated by our empirical observation that answer token entropy reliably signals retrieval sufficiency. Extensive experiments on six QA benchmarks spanning single-hop and multi-hop settings demonstrate that LAnR outperforms existing RAG methods, while achieving improved inference efficiency through reduced number of retrieval calls and tighter model integration.

Latent Abstraction for Retrieval-Augmented Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理