Where Does Reasoning Break? Step-Level Hallucination Detection via Hidden-State Transport Geometry
作者: Tyler Alvarez, Ali Baheri
分类: cs.CL, cs.AI
发布日期: 2026-05-13
💡 一句话要点
提出基于隐状态轨迹几何的步骤级幻觉检测方法,解决多步推理中的错误定位问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 幻觉检测 多步推理 隐状态轨迹 对比PCA 知识蒸馏 几何分析 语言模型
📋 核心要点
- 现有幻觉检测方法通常在trace级别进行,无法精确定位多步推理中的首个错误。
- 论文核心思想是,将幻觉视为隐状态轨迹的异常偏移,通过几何特征检测偏离正常推理流形的步骤。
- 实验表明,所提出的教师模型和学生模型在多个数据集上优于现有基线,但学生模型在分布偏移下性能下降。
📝 摘要(中文)
大型语言模型在多步推理过程中会产生幻觉,但现有的大多数检测器都在trace级别操作:它们为完整的输出分配一个置信度分数,无法定位第一个错误,并且通常需要多个采样的补全。本文将幻觉定义为单个前向传递期间产生的隐状态轨迹的属性。正确的推理在局部连贯转换的稳定流形中移动;第一个错误表现为远离该流形的传输成本中的局部偏移。本文使用标签条件教师模型,构建特定于trace的对比PCA透镜,并使用七个几何转换特征对每个步骤进行评分;以及一个可部署的BiLSTM学生模型,从教师模型中提炼出来,在原始隐藏状态上运行,无需推理时标签。证明了对比PCA是第一个错误状态和正确状态之间传输分离目标的最优投影,并且只要第一个错误在先前的正确转换上产生正的传输裕度,单次通过的第一个错误定位就成立。在ProcessBench、PRM800K、HaluEval和TruthfulQA上,两个模型在领域内都优于基于熵、基于探针和基于注意力的基线;教师模型在语言模型和数据集之间稳定转移,而学生模型在分布偏移下崩溃,这是蒸馏理论预测的差距。这些结果将步骤级幻觉检测重新定义为轨迹动力学问题,并确定了部署的核心障碍:在分布偏移下保持对比传输裕度。
🔬 方法详解
问题定义:现有的大型语言模型幻觉检测方法通常在整个推理链条结束后进行判断,无法定位到第一个出错的步骤。这种trace级别的检测方式限制了对幻觉原因的分析和改进,并且需要多次采样才能提高检测的准确性。因此,需要一种能够精确定位到推理过程中第一个错误步骤的方法。
核心思路:论文的核心思路是将语言模型的推理过程视为隐状态在流形上的运动。正确的推理步骤对应于流形上的稳定运动,而幻觉则表现为隐状态轨迹偏离该流形的异常偏移。通过分析隐状态轨迹的几何特征,可以检测到推理过程中出现的第一个错误。
技术框架:该方法包含两个主要模型:教师模型和学生模型。教师模型利用标签信息,通过对比PCA构建特定于trace的透镜,提取隐状态轨迹的几何特征,并对每个步骤进行评分。学生模型是一个BiLSTM网络,通过蒸馏学习教师模型的知识,直接在原始隐状态上进行操作,无需标签信息。整体流程包括:1) 使用教师模型提取几何特征并生成标签;2) 使用这些标签训练学生模型;3) 使用训练好的学生模型进行幻觉检测。
关键创新:该方法最重要的创新点在于将幻觉检测问题转化为隐状态轨迹的几何分析问题。通过对比PCA提取的几何特征能够有效地捕捉到推理过程中出现的异常偏移,从而实现对第一个错误步骤的精确定位。此外,使用蒸馏技术训练学生模型,使其能够在没有标签信息的情况下进行幻觉检测,提高了模型的实用性。
关键设计:教师模型使用对比PCA来学习一个投影,该投影最大化正确状态和错误状态之间的距离。几何特征包括传输成本、曲率等,用于描述隐状态轨迹的局部几何性质。学生模型使用BiLSTM网络来学习教师模型的知识,损失函数包括分类损失和回归损失,用于提高模型的准确性和鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的教师模型和学生模型在ProcessBench、PRM800K、HaluEval和TruthfulQA等数据集上均优于现有的基于熵、基于探针和基于注意力的基线方法。教师模型在不同语言模型和数据集之间具有良好的泛化能力,而学生模型在分布偏移下性能有所下降,这与蒸馏理论的预测相符。
🎯 应用场景
该研究成果可应用于各种需要可靠推理的大型语言模型应用场景,例如问答系统、对话机器人、代码生成等。通过检测和纠正推理过程中的幻觉,可以提高这些应用的准确性和可靠性,增强用户信任度。此外,该方法还可以用于分析语言模型的推理过程,帮助研究人员更好地理解语言模型的内部机制。
📄 摘要(原文)
Large language models hallucinate during multi-step reasoning, but most existing detectors operate at the trace level: they assign one confidence score to a full output, fail to localize the first error, and often require multiple sampled completions. We frame hallucination instead as a property of the hidden-state trajectory produced during a single forward pass. Correct reasoning moves through a stable manifold of locally coherent transitions; a first error appears as a localized excursion in transport cost away from this manifold. We operationalize this view with a label-conditioned teacher that builds a trace-specific contrastive PCA lens and scores each step with seven geometric transition features, and a deployable BiLSTM student distilled from the teacher that operates on raw hidden states without inference-time labels. We prove that contrastive PCA is the optimal projection for a transport-separation objective between first error and correct states, and that single-pass first error localization holds whenever the first error creates a positive transport margin over preceding correct transitions. On ProcessBench, PRM800K, HaluEval, and TruthfulQA, both models outperform entropy-based, probing-based, and attention-based baselines in-domain; the teacher transfers stably across language models and datasets, while the student collapses under shift, a gap our distillation theory predicts. These results recast step-level hallucination detection as a problem of trajectory dynamics and identify the central obstacle to deployment: preserving the contrastive transport margin under distribution shift.