RAGognizer: Hallucination-Aware Fine-Tuning via Detection Head Integration

📄 arXiv: 2604.15945v1 📥 PDF

作者: Fabian Ridder, Laurin Lessel, Malte Schilling

分类: cs.CL, cs.LG

发布日期: 2026-04-17

备注: accepted at IJCNN 2026


💡 一句话要点

提出RAGognizer,通过集成检测头进行幻觉感知微调,提升RAG生成质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 幻觉检测 微调 语言模型 知识库 自然语言处理 RAG 闭域幻觉

📋 核心要点

  1. 现有RAG模型仍存在闭域幻觉问题,生成内容与检索上下文不符,缺乏有效的训练时幻觉抑制。
  2. RAGognizer通过在LLM中集成轻量级检测头,联合优化语言建模和幻觉检测,直接利用内部状态进行幻觉感知微调。
  3. 实验表明,RAGognizer在token级别幻觉检测上达到SOTA,显著降低生成幻觉率,且不影响语言质量和相关性。

📝 摘要(中文)

检索增强生成(RAG)被广泛用于利用外部信息(如最新或特定领域知识)来增强大型语言模型(LLM)的输入。然而,当前的模型仍然会产生闭域幻觉,并生成检索到的上下文不支持的内容。目前的检测方法通常将幻觉视为事后问题,依赖于黑盒一致性检查或对冻结的内部表示进行探测。本文证明了基于内部状态表示的幻觉检测也可以作为直接的训练信号。我们引入了RAGognize,一个具有token级别注释的自然发生的闭域幻觉数据集,以及RAGognizer,一种幻觉感知微调方法,它将一个轻量级的检测头集成到LLM中,从而可以联合优化语言建模和幻觉检测。这种联合目标迫使模型提高其内部状态关于幻觉的可分离性,同时学习生成良好且有意义的响应。在多个基准测试中,RAGognizer实现了最先进的token级别幻觉检测,同时显著降低了生成过程中的幻觉率,而不会降低语言质量或相关性。

🔬 方法详解

问题定义:论文旨在解决检索增强生成(RAG)模型中存在的幻觉问题,即模型生成的内容与检索到的上下文不一致或缺乏依据。现有方法通常采用事后检测,例如黑盒一致性检查,无法在训练阶段直接抑制幻觉的产生。

核心思路:论文的核心思路是将幻觉检测融入到模型的训练过程中,通过在LLM中集成一个轻量级的检测头,使模型能够同时学习语言建模和幻觉检测。这样,模型可以学习区分哪些内部状态对应于幻觉,从而在生成过程中避免产生幻觉。

技术框架:RAGognizer的技术框架主要包括以下几个部分:1) 一个预训练的LLM;2) 一个轻量级的幻觉检测头,该检测头被添加到LLM中;3) 一个用于联合训练的数据集,该数据集包含token级别的幻觉标注;4) 一个联合损失函数,该损失函数同时优化语言建模和幻觉检测。整个流程是,输入文本经过LLM处理,LLM的内部状态被传递到幻觉检测头,检测头预测每个token是否为幻觉,然后使用联合损失函数更新模型参数。

关键创新:RAGognizer的关键创新在于将幻觉检测作为一种训练信号,通过联合优化语言建模和幻觉检测,使模型能够直接学习抑制幻觉。与现有方法相比,RAGognizer不是事后检测幻觉,而是在生成过程中主动避免幻觉的产生。此外,RAGognize数据集的构建也为幻觉检测和抑制的研究提供了新的资源。

关键设计:RAGognizer的关键设计包括:1) 轻量级检测头的结构,具体结构未知,但强调了其轻量性,以避免增加模型负担;2) 联合损失函数的设计,需要平衡语言建模和幻觉检测两个任务;3) RAGognize数据集的构建,需要保证标注的准确性和覆盖性。具体的参数设置和网络结构等技术细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RAGognizer在多个基准测试中取得了最先进的token级别幻觉检测效果,同时显著降低了生成过程中的幻觉率,并且没有降低语言质量或相关性。具体的性能数据和对比基线在摘要中未给出,需要在论文中查找。

🎯 应用场景

RAGognizer可应用于各种需要高质量、无幻觉内容生成的场景,例如:智能客服、知识库问答、报告生成等。通过减少幻觉,提高生成内容的可靠性和准确性,增强用户信任度,并降低错误信息带来的风险。未来可进一步研究如何将RAGognizer应用于更复杂的RAG流程和领域。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) is widely used to augment the input to Large Language Models (LLMs) with external information, such as recent or domain-specific knowledge. Nonetheless, current models still produce closed-domain hallucinations and generate content that is unsupported by the retrieved context. Current detection approaches typically treat hallucination as a post-hoc problem, relying on black-box consistency checks or probes over frozen internal representations. In this work, we demonstrate that hallucination detection based on internal state representation can also serve as a direct training signal. We introduce RAGognize, a dataset of naturally occurring closed-domain hallucinations with token-level annotations, and RAGognizer, a hallucination-aware fine-tuning approach that integrates a lightweight detection head into an LLM, allowing for the joint optimization of language modeling and hallucination detection. This joint objective forces the model to improve the separability of its internal states regarding hallucinations while simultaneously learning to generate well-formed and meaningful responses. Across multiple benchmarks, RAGognizer achieves state-of-the-art token-level hallucination detection while substantially reducing hallucination rates during generation, without degrading language quality or relevance.