Hallucination Detection via Activations of Open-Weight Proxy Analyzers

作者: Akshita Singh, Prabesh Paudel, Siddhartha Roy

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-08

备注: 12 pages, 4 figures. Code available at https://github.com/hallu-detect/llm_hallucination_detection

💡 一句话要点

提出基于开源代理分析器激活值的幻觉检测框架，实现对闭源与开源LLM的通用幻觉识别。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 幻觉检测 大型语言模型 代理分析器 Transformer激活 RAG系统 模型可解释性 特征工程

📋 核心要点

现有幻觉检测方法往往依赖生成模型的内部状态，难以直接应用于闭源API模型，且计算开销较大。
提出一种代理分析器框架，通过小型开源模型读取生成文本，利用其内部激活特征进行幻觉检测，实现模型无关性。
实验表明该方法在多个数据集上显著优于现有基线，且分析器规模对性能影响较小，展现了极高的鲁棒性与泛化能力。

📝 摘要（中文）

本文提出了一种代理分析器框架，用于检测大型语言模型（LLM）生成的幻觉。该系统无需访问生成模型的内部状态，而是通过一个本地部署的小型开源模型读取已生成的文本，利用阅读器自身的内部激活值来识别幻觉。该方法对闭源API（如GPT-4）和开源模型均有效。研究构建了18个基于Transformer文本处理机制的特征，涵盖残差流范数、注意力头源文档关注度、熵、MLP激活值、Logit-lens轨迹及三种新型Token级接地统计量。通过在五个幻觉数据集的72,135个样本上训练堆叠集成模型，并在七种不同规模（0.5B至9B参数）的分析器架构上进行测试，结果显示该方法在RAGTruth数据集上显著超越了现有基线ReDeEP，且不同规模模型表现高度一致，证明了幻觉检测性能并不完全依赖于分析器规模。

🔬 方法详解

问题定义：现有幻觉检测方法通常需要访问生成模型的Logits或隐藏层状态，这在闭源模型（如GPT-4）场景下不可行。此外，针对特定模型的检测器往往缺乏跨模型家族的泛化能力。

核心思路：引入“代理分析器”概念，将幻觉检测视为一个阅读理解任务。通过分析小型开源模型在处理生成文本时的内部激活模式，捕捉模型对事实一致性的“困惑”或“不确定性”，从而实现对任意生成器输出的幻觉检测。

技术框架：系统由特征提取模块和堆叠集成（Stacking Ensemble）分类器组成。分析器读取生成文本，提取包括残差流范数、注意力分布、MLP激活、Logit-lens轨迹等18个维度特征，并结合三种自定义的Token级接地统计量，最终输入集成模型进行二分类判断。

关键创新：实现了检测器与生成器的解耦，无需生成模型参与即可进行检测。通过引入Transformer内部机制的深层特征（如Logit-lens轨迹），捕捉到了比单纯概率分布更细粒度的幻觉信号。

关键设计：构建了包含18个特征的特征工程体系，并针对不同规模（0.5B-9B）的分析器架构进行了统一训练。实验发现，即使是0.5B参数的小模型也能达到与大模型相当的检测性能，验证了特征提取的有效性。

🖼️ 关键图片

📊 实验亮点

在RAGTruth数据集上，该方法将Token级AUC从基线ReDeEP的0.73提升至0.803-0.833，提升幅度达7.4%至10.3%。实验发现模型规模对性能影响极小，AUC跨度仅2.3%，且3B参数模型在某些场景下优于8B模型，证明了特征工程在幻觉检测中的核心作用。

🎯 应用场景

该方法可广泛应用于RAG（检索增强生成）系统的质量控制、医疗与法律等高风险领域的AI辅助决策，以及闭源LLM服务的实时幻觉监控。其轻量化特性使其能够部署在边缘设备或资源受限的生产环境中，为企业级AI应用提供低成本、高可靠性的幻觉防御方案。

📄 摘要（原文）

We introduce a proxy-analyzer framework for detecting hallucinations in large language models. Instead of looking inside the generating model, our system reads already-generated text through a small locally hosted open-weight model and spots hallucinations using the reader's own internal activations. This works just as well when the generator is a closed API like GPT-4 as when it is any open-weight model. We built eighteen features grounded in how transformers process text, covering residual stream norms, per-head source-document attention, entropy, MLP activations, logit-lens trajectories, and three new token-level grounding statistics. We trained a stacking ensemble on 72,135 samples from five hallucination datasets. We tested across seven analyzer architectures from 0.5 billion to 9 billion parameters: Qwen2.5 at 0.5B and 7B, Gemma-2 at 2B and 9B, Pythia at 1.4B, and LLaMA-3 at both 3B and 8B. Across all seven, we consistently beat ReDeEP's token-level AUC of 0.73 on RAGTruth by 7.4 to 10.3 percentage points. Qwen2.5-7B reached an F1 of 0.717, just above ReDeEP's 0.713, while Qwen2.5-0.5B hit 0.706. The most striking finding is how tightly all seven models cluster: AUC spans only 2.3 percentage points across an eighteen-fold difference in model size. Even more surprising, our 3B LLaMA outperforms our 8B LLaMA on RAGTruth, showing that bigger is not always better even within the same model family. Both RAGTruth and LLM-AggreFact include outputs from multiple LLM families, so our results are not skewed toward any particular generator.

Hallucination Detection via Activations of Open-Weight Proxy Analyzers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理