Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

作者: Kai Wei, Raymond Li, Xi Zhu, Zhaoqian Xue, Jiaojiao Han, Jingcheng Niu, Fan Yang

分类: cs.CL

发布日期: 2026-04-17

💡 一句话要点

Skill-RAG：通过隐状态探测和技能路由实现故障感知检索增强生成

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 故障感知 隐状态探测 技能路由 查询重写 问题分解 证据聚焦

📋 核心要点

现有RAG方法在检索失败时仅简单重试，忽略了查询与证据空间不对齐的根本原因。
Skill-RAG通过隐状态探测器和技能路由，诊断并纠正查询-证据不对齐问题。
实验表明，Skill-RAG在困难和分布外数据集上显著提升了准确性。

📝 摘要（中文）

检索增强生成（RAG）已成为将大型语言模型与外部知识相结合的基础范例。虽然自适应检索机制提高了检索效率，但现有方法将检索后失败视为重试的信号，而不是诊断，从而忽略了查询-证据不一致的结构性原因。我们观察到，持续检索失败的很大一部分并非源于缺乏相关证据，而是源于查询和证据空间之间的对齐差距。我们提出了Skill-RAG，一个故障感知RAG框架，它将轻量级隐状态探测器与基于提示的技能路由器相结合。探测器在两个pipeline阶段控制检索；在检测到故障状态后，技能路由器诊断根本原因，并在下一次生成尝试之前，从四种检索技能（查询重写、问题分解、证据聚焦以及用于真正不可约情况的退出技能）中进行选择，以纠正不对齐。跨多个开放域问答和复杂推理基准的实验表明，Skill-RAG显著提高了多次检索后仍然存在的困难情况的准确性，尤其是在分布外数据集上获得了显著收益。表征空间分析进一步表明，所提出的技能占据了故障状态空间中结构化的、可分离的区域，这支持了查询-证据不对齐是一种类型化的而非单一现象的观点。

🔬 方法详解

问题定义：论文旨在解决检索增强生成（RAG）中，由于查询和证据空间不对齐导致的持续检索失败问题。现有方法通常将检索失败视为需要重试的信号，而忽略了导致失败的根本原因，即查询与检索到的文档在语义空间上存在差距。这种差距导致即使存在相关证据，模型也无法有效利用。

核心思路：Skill-RAG的核心思路是引入故障感知机制，通过隐状态探测器检测查询-证据不对齐的故障状态，并利用技能路由器选择合适的检索技能来纠正这种不对齐。通过诊断失败原因并采取针对性措施，提高检索的有效性和准确性。

技术框架：Skill-RAG框架包含以下主要模块：1) 隐状态探测器：在检索pipeline的两个阶段（初始检索和技能应用后）探测LLM的隐状态，判断是否存在查询-证据不对齐的故障状态。2) 技能路由器：基于探测器输出的故障状态，选择合适的检索技能。3) 检索技能库：包含四种技能：查询重写（改进查询表达）、问题分解（将复杂问题拆解为简单子问题）、证据聚焦（关注文档中最相关的部分）和退出技能（对于无法解决的情况）。整个流程是迭代的，直到检索成功或达到最大迭代次数。

关键创新：Skill-RAG的关键创新在于其故障感知和技能路由机制。它不仅关注检索结果，更关注检索过程中的状态，并根据状态选择不同的策略。与现有方法简单重试不同，Skill-RAG能够诊断失败原因并采取针对性措施，从而更有效地利用外部知识。此外，通过表征空间分析，验证了不同技能对应于不同的故障类型，证明了查询-证据不对齐是一种类型化的现象。

关键设计：隐状态探测器使用轻量级神经网络，基于LLM的隐状态预测检索是否成功。技能路由器使用prompt工程，根据探测器的输出选择合适的技能。四种检索技能均基于prompt，引导LLM进行查询重写、问题分解或证据聚焦。损失函数主要关注最终的问答准确率，并可能包含一些辅助损失来优化隐状态探测器的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Skill-RAG在多个开放域问答和复杂推理基准上显著提高了准确性，尤其是在多次检索后仍然存在的困难情况和分布外数据集上。例如，在某些数据集上，Skill-RAG的准确率提升超过10%。表征空间分析表明，不同的检索技能占据了故障状态空间中可分离的区域，验证了该方法的有效性。

🎯 应用场景

Skill-RAG可应用于各种需要利用外部知识的问答、对话和推理任务。例如，在医疗问答中，可以帮助模型更准确地检索和利用医学知识，提高诊断和治疗建议的质量。在金融领域，可以辅助模型进行风险评估和投资决策。该方法还可用于构建更智能的搜索引擎和知识库。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) has emerged as a foundational paradigm for grounding large language models in external knowledge. While adaptive retrieval mechanisms have improved retrieval efficiency, existing approaches treat post-retrieval failure as a signal to retry rather than to diagnose -- leaving the structural causes of query-evidence misalignment unaddressed. We observe that a significant portion of persistent retrieval failures stem not from the absence of relevant evidence but from an alignment gap between the query and the evidence space. We propose Skill-RAG, a failure-aware RAG framework that couples a lightweight hidden-state prober with a prompt-based skill router. The prober gates retrieval at two pipeline stages; upon detecting a failure state, the skill router diagnoses the underlying cause and selects among four retrieval skills -- query rewriting, question decomposition, evidence focusing, and an exit skill for truly irreducible cases -- to correct misalignment before the next generation attempt. Experiments across multiple open-domain QA and complex reasoning benchmarks show that Skill-RAG substantially improves accuracy on hard cases persisting after multi-turn retrieval, with particularly strong gains on out-of-distribution datasets. Representation-space analyses further reveal that the proposed skills occupy structured, separable regions of the failure state space, supporting the view that query-evidence misalignment is a typed rather than monolithic phenomenon.

Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理