HARP: Hallucination Detection via Reasoning Subspace Projection

📄 arXiv: 2509.11536v2 📥 PDF

作者: Junjie Hu, Gang Tu, ShengYu Cheng, Jinxin Li, Jinting Wang, Rui Chen, Zhilong Zhou, Dongbo Shan

分类: cs.CL, cs.AI

发布日期: 2025-09-15 (更新: 2025-12-05)


💡 一句话要点

HARP:通过推理子空间投影检测大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 推理子空间 语义子空间 奇异值分解 Unembedding层 鲁棒性

📋 核心要点

  1. 现有幻觉检测方法难以有效分离语义和推理信息,导致鲁棒性不足,影响检测准确性。
  2. HARP框架将LLM隐藏状态空间分解为语义和推理子空间,利用Unembedding层解耦并提取推理子空间。
  3. 实验表明,HARP在多个数据集上实现了最先进的幻觉检测性能,并在TriviaQA上显著超越现有方法。

📝 摘要(中文)

大型语言模型(LLMs)中的幻觉现象严重阻碍了其在关键决策中的可靠应用。虽然现有的幻觉检测方法在准确性方面有所提高,但它们仍然难以解耦语义和推理信息,并保持鲁棒性。为了解决这些挑战,我们提出了HARP(通过推理子空间投影进行幻觉检测),这是一个新颖的幻觉检测框架。HARP证明了LLM的隐藏状态空间可以分解为语义子空间和推理子空间的直和,其中前者编码语言表达,后者捕获内部推理过程。此外,我们证明了Unembedding层可以解耦这些子空间,并且通过对它的参数应用奇异值分解(SVD),可以获得跨越语义和推理子空间的基向量。最后,HARP将隐藏状态投影到推理子空间的基向量上,并将得到的投影用作LLM中幻觉检测的输入特征。通过使用这些投影,HARP将特征的维度降低到原始维度的约5%,过滤掉大部分噪声,并实现增强的鲁棒性。在多个数据集上的实验表明,HARP实现了最先进的幻觉检测性能;特别是在TriviaQA上,它实现了92.8%的AUROC,超过了之前最好的方法7.5%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中幻觉检测的问题。现有方法的痛点在于难以有效区分语义信息和推理信息,导致检测的鲁棒性较差,容易受到噪声干扰,从而影响幻觉检测的准确性。

核心思路:论文的核心思路是将LLM的隐藏状态空间分解为语义子空间和推理子空间,认为幻觉更多地体现在推理子空间中。通过提取推理子空间的信息,可以更有效地检测幻觉,同时降低噪声的干扰。Unembedding层被认为是解耦这两个子空间的关键。

技术框架:HARP框架主要包含以下几个阶段:1) 利用LLM生成文本和对应的隐藏状态;2) 使用Unembedding层解耦语义和推理子空间;3) 对Unembedding层的参数进行奇异值分解(SVD),得到语义和推理子空间的基向量;4) 将隐藏状态投影到推理子空间的基向量上,得到降维后的特征;5) 使用这些投影特征作为输入,训练或使用分类器进行幻觉检测。

关键创新:最重要的技术创新点在于提出了将LLM的隐藏状态空间分解为语义和推理子空间,并利用Unembedding层进行解耦。这与现有方法直接使用整个隐藏状态进行检测不同,能够更精确地定位与推理相关的特征,从而提高检测的准确性和鲁棒性。

关键设计:关键设计包括:1) 使用奇异值分解(SVD)从Unembedding层的参数中提取子空间的基向量;2) 通过投影操作将高维的隐藏状态降维到推理子空间,显著减少了特征维度(约5%);3) 使用降维后的特征作为输入,可以采用各种分类器进行幻觉检测,例如逻辑回归、支持向量机等。论文没有特别强调特定的损失函数或网络结构,而是侧重于特征提取的方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HARP在多个数据集上取得了state-of-the-art的幻觉检测性能。特别是在TriviaQA数据集上,HARP的AUROC达到了92.8%,相比之前最好的方法提升了7.5%。实验结果表明,HARP能够有效地提取推理子空间的信息,降低噪声干扰,从而显著提高幻觉检测的准确性和鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要依赖大型语言模型进行决策的场景,例如智能客服、自动问答系统、内容生成平台等。通过提高LLM的可靠性,可以减少错误信息的传播,提升用户体验,并降低潜在的风险。未来,该方法可以进一步扩展到其他类型的LLM和更复杂的任务中。

📄 摘要(原文)

Hallucinations in Large Language Models (LLMs) pose a major barrier to their reliable use in critical decision-making. Although existing hallucination detection methods have improved accuracy, they still struggle with disentangling semantic and reasoning information and maintaining robustness. To address these challenges, we propose HARP (Hallucination detection via reasoning subspace projection), a novel hallucination detection framework. HARP establishes that the hidden state space of LLMs can be decomposed into a direct sum of a semantic subspace and a reasoning subspace, where the former encodes linguistic expression and the latter captures internal reasoning processes. Moreover, we demonstrate that the Unembedding layer can disentangle these subspaces, and by applying Singular Value Decomposition (SVD) to its parameters, the basis vectors spanning the semantic and reasoning subspaces are obtained. Finally, HARP projects hidden states onto the basis vectors of the reasoning subspace, and the resulting projections are then used as input features for hallucination detection in LLMs. By using these projections, HARP reduces the dimension of the feature to approximately 5% of the original, filters out most noise, and achieves enhanced robustness. Experiments across multiple datasets show that HARP achieves state-of-the-art hallucination detection performance; in particular, it achieves an AUROC of 92.8% on TriviaQA, outperforming the previous best method by 7.5%.