Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

📄 arXiv: 2604.15771v1 📥 PDF

作者: Kai Wei, Raymond Li, Xi Zhu, Zhaoqian Xue, Jiaojiao Han, Jingcheng Niu, Fan Yang

分类: cs.CL

发布日期: 2026-04-17


💡 一句话要点

Skill-RAG:通过隐状态探测和技能路由实现故障感知检索增强生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 故障感知 隐状态探测 技能路由 查询重写 问题分解 证据聚焦

📋 核心要点

  1. 现有RAG方法在检索失败时仅简单重试,忽略了查询与证据空间不对齐的根本原因。
  2. Skill-RAG通过隐状态探测器和技能路由,诊断并纠正查询-证据不对齐问题。
  3. 实验表明,Skill-RAG在困难和分布外数据集上显著提升了准确性。

📝 摘要(中文)

检索增强生成(RAG)已成为将大型语言模型与外部知识相结合的基础范例。虽然自适应检索机制提高了检索效率,但现有方法将检索后失败视为重试的信号,而不是诊断,从而忽略了查询-证据不一致的结构性原因。我们观察到,持续检索失败的很大一部分并非源于缺乏相关证据,而是源于查询和证据空间之间的对齐差距。我们提出了Skill-RAG,一个故障感知RAG框架,它将轻量级隐状态探测器与基于提示的技能路由器相结合。探测器在两个pipeline阶段控制检索;在检测到故障状态后,技能路由器诊断根本原因,并在下一次生成尝试之前,从四种检索技能(查询重写、问题分解、证据聚焦以及用于真正不可约情况的退出技能)中进行选择,以纠正不对齐。跨多个开放域问答和复杂推理基准的实验表明,Skill-RAG显著提高了多次检索后仍然存在的困难情况的准确性,尤其是在分布外数据集上获得了显著收益。表征空间分析进一步表明,所提出的技能占据了故障状态空间中结构化的、可分离的区域,这支持了查询-证据不对齐是一种类型化的而非单一现象的观点。

🔬 方法详解

问题定义:论文旨在解决检索增强生成(RAG)中,由于查询和证据空间不对齐导致的持续检索失败问题。现有方法通常将检索失败视为需要重试的信号,而忽略了导致失败的根本原因,即查询与检索到的文档在语义空间上存在差距。这种差距导致即使存在相关证据,模型也无法有效利用。

核心思路:Skill-RAG的核心思路是引入故障感知机制,通过隐状态探测器检测查询-证据不对齐的故障状态,并利用技能路由器选择合适的检索技能来纠正这种不对齐。通过诊断失败原因并采取针对性措施,提高检索的有效性和准确性。

技术框架:Skill-RAG框架包含以下主要模块:1) 隐状态探测器:在检索pipeline的两个阶段(初始检索和技能应用后)探测LLM的隐状态,判断是否存在查询-证据不对齐的故障状态。2) 技能路由器:基于探测器输出的故障状态,选择合适的检索技能。3) 检索技能库:包含四种技能:查询重写(改进查询表达)、问题分解(将复杂问题拆解为简单子问题)、证据聚焦(关注文档中最相关的部分)和退出技能(对于无法解决的情况)。整个流程是迭代的,直到检索成功或达到最大迭代次数。

关键创新:Skill-RAG的关键创新在于其故障感知和技能路由机制。它不仅关注检索结果,更关注检索过程中的状态,并根据状态选择不同的策略。与现有方法简单重试不同,Skill-RAG能够诊断失败原因并采取针对性措施,从而更有效地利用外部知识。此外,通过表征空间分析,验证了不同技能对应于不同的故障类型,证明了查询-证据不对齐是一种类型化的现象。

关键设计:隐状态探测器使用轻量级神经网络,基于LLM的隐状态预测检索是否成功。技能路由器使用prompt工程,根据探测器的输出选择合适的技能。四种检索技能均基于prompt,引导LLM进行查询重写、问题分解或证据聚焦。损失函数主要关注最终的问答准确率,并可能包含一些辅助损失来优化隐状态探测器的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Skill-RAG在多个开放域问答和复杂推理基准上显著提高了准确性,尤其是在多次检索后仍然存在的困难情况和分布外数据集上。例如,在某些数据集上,Skill-RAG的准确率提升超过10%。表征空间分析表明,不同的检索技能占据了故障状态空间中可分离的区域,验证了该方法的有效性。

🎯 应用场景

Skill-RAG可应用于各种需要利用外部知识的问答、对话和推理任务。例如,在医疗问答中,可以帮助模型更准确地检索和利用医学知识,提高诊断和治疗建议的质量。在金融领域,可以辅助模型进行风险评估和投资决策。该方法还可用于构建更智能的搜索引擎和知识库。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) has emerged as a foundational paradigm for grounding large language models in external knowledge. While adaptive retrieval mechanisms have improved retrieval efficiency, existing approaches treat post-retrieval failure as a signal to retry rather than to diagnose -- leaving the structural causes of query-evidence misalignment unaddressed. We observe that a significant portion of persistent retrieval failures stem not from the absence of relevant evidence but from an alignment gap between the query and the evidence space. We propose Skill-RAG, a failure-aware RAG framework that couples a lightweight hidden-state prober with a prompt-based skill router. The prober gates retrieval at two pipeline stages; upon detecting a failure state, the skill router diagnoses the underlying cause and selects among four retrieval skills -- query rewriting, question decomposition, evidence focusing, and an exit skill for truly irreducible cases -- to correct misalignment before the next generation attempt. Experiments across multiple open-domain QA and complex reasoning benchmarks show that Skill-RAG substantially improves accuracy on hard cases persisting after multi-turn retrieval, with particularly strong gains on out-of-distribution datasets. Representation-space analyses further reveal that the proposed skills occupy structured, separable regions of the failure state space, supporting the view that query-evidence misalignment is a typed rather than monolithic phenomenon.