When Answers Stray from Questions: Hallucination Detection via Question-Answer Orthogonal Decomposition

📄 arXiv: 2605.14449v1 📥 PDF

作者: Siyang Yao, Erhu Feng, Yubin Xia

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-14


💡 一句话要点

提出QAOD框架,通过问题-答案正交分解检测大语言模型中的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉检测 正交分解 领域泛化 白盒探针

📋 核心要点

  1. 现有幻觉检测方法在准确性、效率和跨领域泛化能力上存在不足,黑盒方法效率低,白盒方法鲁棒性差。
  2. QAOD框架通过正交分解,将答案表示分解为问题对齐和正交分量,抑制领域条件变化,提升鲁棒性。
  3. 实验表明,QAOD在领域内检测和跨领域泛化方面均优于现有方法,尤其在OOD迁移上提升显著。

📝 摘要(中文)

大语言模型(LLM)中的幻觉检测需要在准确性、效率和分布偏移的鲁棒性之间取得平衡。黑盒一致性方法有效但需要重复推理;单次白盒探针方法效率高,但孤立地处理答案表示,在领域偏移下性能急剧下降。我们提出了QAOD(问题-答案正交分解),这是一个单次框架,它从答案表示中去除问题对齐的方向,以获得抑制领域条件变化的正交分量。为了识别信息丰富的信号,QAOD进一步通过多样性惩罚的Fisher评分选择层,并通过Fisher重要性选择判别神经元。为了解决领域内检测和跨领域泛化问题,我们设计了两种互补的探测策略:将正交分量与问题上下文配对产生一个联合探针,以最大化领域内可区分性,而单独使用正交分量则保留了领域无关的事实性信号,以实现鲁棒的迁移。QAOD的联合探针在所有评估的模型-数据集对上实现了最佳的领域内AUROC,而仅使用正交分量的探针提供了最强的OOD迁移,在BioASQ上超过了最佳白盒基线高达21%,且生成成本低于25%。

🔬 方法详解

问题定义:论文旨在解决大语言模型中幻觉检测的问题。现有方法,如黑盒一致性方法,需要多次推理,效率低下;而单次白盒探针方法虽然高效,但对领域偏移的鲁棒性较差,在跨领域场景下性能会显著下降。

核心思路:论文的核心思路是将答案的表示向量分解为与问题相关的分量和与问题正交的分量。作者认为,与问题正交的分量更能反映答案本身的事实性,从而可以更好地检测幻觉,并且能够抑制领域偏移带来的影响。

技术框架:QAOD框架主要包含以下几个阶段:1) 问题-答案对的表示学习:使用预训练语言模型获取问题和答案的向量表示。2) 正交分解:将答案的表示向量分解为与问题相关的分量和与问题正交的分量。3) 特征选择:通过多样性惩罚的Fisher评分选择信息量大的层,并通过Fisher重要性选择判别性神经元。4) 探针设计:设计两种探针,一种是联合探针,将正交分量与问题上下文结合,用于最大化领域内可区分性;另一种是仅使用正交分量的探针,用于保留领域无关的事实性信号,以实现鲁棒的迁移。

关键创新:论文的关键创新在于提出了问题-答案正交分解的思想,将答案表示分解为问题对齐和正交分量,从而更好地捕捉答案的事实性信息,并抑制领域偏移的影响。此外,论文还提出了两种互补的探针设计,分别用于优化领域内检测和跨领域泛化。

关键设计:论文使用了Fisher评分和Fisher重要性来进行特征选择,这是一种基于梯度的特征选择方法,可以有效地选择信息量大的层和神经元。在探针设计方面,论文设计了联合探针和正交探针两种策略,前者结合了问题上下文,后者则更加关注答案本身的事实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QAOD框架在领域内幻觉检测和跨领域泛化方面均取得了显著的提升。具体而言,QAOD的联合探针在所有评估的模型-数据集对上实现了最佳的领域内AUROC,而仅使用正交分量的探针在BioASQ数据集上超过了最佳白盒基线高达21%,且生成成本低于25%。

🎯 应用场景

该研究成果可应用于各种需要检测大语言模型幻觉的场景,例如智能客服、自动问答系统、内容生成等。通过提高LLM生成内容的可靠性和准确性,可以提升用户体验,降低错误信息传播的风险,并为构建更加可信赖的人工智能系统奠定基础。

📄 摘要(原文)

Hallucination detection in large language models (LLMs) requires balancing accu racy, efficiency, and robustness to distribution shift. Black-box consistency methods are effective but demand repeated inference; single-pass white-box probes are effi cient yet treat answer representations in isolation, often degrading sharply under domain shift. We propose QAOD (Question-Answer Orthogonal Decomposition), a single-pass framework that projects away the question-aligned direction from the answer representation to obtain a question-orthogonal component that suppresses domain-conditioned variation. To identify informative signals, QAOD further selects layers via diversity-penalized Fisher scoring and discriminative neurons via Fisher importance. To address both in-domain detection and cross-domain generalization, we design two complementary probing strategies: pairing the or thogonal component with question context yields a joint probe that maximizes in-domain discriminability, while using the orthogonal component alone preserves domain-agnostic factuality signals for robust transfer. QAOD's joint probe achieves the best in-domain AUROC across all evaluated model-dataset pairs, while the orthogonal-only probe delivers the strongest OOD transfer, surpassing the best white-box baseline by up to 21% on BioASQ at under 25% of generation cost.