Spilled Energy in Large Language Models
作者: Adrian Robert Minut, Hazem Dewidar, Iacopo Masi
分类: cs.AI, cs.CL
发布日期: 2026-02-21
💡 一句话要点
提出基于能量模型的LLM推理方法,无需训练即可检测幻觉。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉检测 能量模型 免训练 推理 自然语言处理 可信AI
📋 核心要点
- 现有LLM幻觉检测方法通常需要额外的训练或模型修改,增加了计算成本和复杂性。
- 论文提出一种基于能量模型的LLM推理方法,通过追踪“能量溢出”来检测幻觉,无需额外训练。
- 实验表明,该方法在多个LLM和基准测试中,实现了与现有方法相当甚至更好的幻觉检测性能。
📝 摘要(中文)
本文将大型语言模型(LLM)的最终softmax分类器重新解释为基于能量的模型(EBM),在推理时将序列到序列的概率链分解为多个相互作用的EBM。这种方法允许我们跟踪解码过程中的“能量溢出”,经验表明,能量溢出与事实错误、偏差和失败相关。与Orgad等人(2025)类似,我们的方法定位了确切的答案token,并随后测试幻觉。但关键是,我们无需训练探针分类器或激活消融即可实现这一点。相反,我们引入了两个完全免训练的指标,直接从输出logits导出:溢出能量,它捕捉了连续生成步骤之间能量值的差异,理论上这些能量值应该匹配;以及边缘化能量,它可以在单个步骤中测量。在最先进的LLM(包括LLaMA、Mistral和Gemma)以及合成代数运算(Qwen3)的九个基准上进行评估,我们的方法展示了稳健、有竞争力的幻觉检测和跨任务泛化能力。值得注意的是,这些结果适用于预训练和指令调整的变体,而无需引入任何训练开销。
🔬 方法详解
问题定义:大型语言模型在生成文本时,容易出现幻觉问题,即生成不真实或与事实相悖的内容。现有的幻觉检测方法通常依赖于训练额外的分类器或对模型进行激活消融,这些方法增加了计算成本,并且可能需要大量的标注数据。因此,如何在不进行额外训练的情况下,有效地检测LLM的幻觉是一个重要的研究问题。
核心思路:论文的核心思路是将LLM的softmax层视为一个能量模型(EBM),并将序列生成过程分解为多个相互作用的EBM。通过分析生成过程中能量的变化,特别是“能量溢出”,来判断模型是否产生了幻觉。能量溢出指的是在连续生成步骤之间,理论上应该匹配的能量值出现了显著的差异。
技术框架:该方法主要包含以下几个步骤:1) 将LLM的softmax层解释为EBM;2) 在生成过程中,计算每个token的能量值;3) 计算连续生成步骤之间的能量溢出;4) 计算边缘化能量,用于单步幻觉检测;5) 使用能量溢出和边缘化能量作为指标,判断模型是否产生了幻觉。整个过程不需要额外的训练,可以直接应用于现有的LLM。
关键创新:该方法最重要的创新点在于,它提出了一种完全免训练的幻觉检测方法,通过将LLM的softmax层视为EBM,并分析生成过程中的能量变化,实现了对幻觉的有效检测。与现有方法相比,该方法不需要额外的训练数据和计算资源,具有更高的效率和实用性。
关键设计:该方法的关键设计包括:1) 使用softmax层的输出logits计算能量值;2) 定义了能量溢出和边缘化能量两个指标,用于衡量生成过程中的能量变化;3) 通过实验验证了能量溢出和边缘化能量与幻觉之间的相关性。具体来说,能量溢出被定义为连续两个token的能量差的绝对值,而边缘化能量则是当前token的能量值。这些指标可以直接从LLM的输出logits中计算得到,无需任何额外的参数设置或网络结构修改。
📊 实验亮点
该方法在LLaMA、Mistral、Gemma和Qwen3等多个LLM上进行了评估,并在九个基准测试中取得了有竞争力的幻觉检测性能。实验结果表明,该方法能够有效地检测LLM的幻觉,并且在预训练和指令调整的LLM上均有效。值得注意的是,该方法在无需任何训练的情况下,实现了与现有方法相当甚至更好的性能。
🎯 应用场景
该研究成果可广泛应用于各种需要LLM生成文本的场景,例如智能客服、内容创作、机器翻译等。通过在LLM生成文本后,使用该方法进行幻觉检测,可以有效提高生成文本的质量和可靠性,减少错误信息的传播。此外,该方法无需训练的特性,使其能够快速部署到现有的LLM系统中,具有很高的实用价值。
📄 摘要(原文)
We reinterpret the final Large Language Model (LLM) softmax classifier as an Energy-Based Model (EBM), decomposing the sequence-to-sequence probability chain into multiple interacting EBMs at inference. This principled approach allows us to track "energy spills" during decoding, which we empirically show correlate with factual errors, biases, and failures. Similar to Orgad et al. (2025), our method localizes the exact answer token and subsequently tests for hallucinations. Crucially, however, we achieve this without requiring trained probe classifiers or activation ablations. Instead, we introduce two completely training-free metrics derived directly from output logits: spilled energy, which captures the discrepancy between energy values across consecutive generation steps that should theoretically match, and marginalized energy, which is measurable at a single step. Evaluated on nine benchmarks across state-of-the-art LLMs (including LLaMA, Mistral, and Gemma) and on synthetic algebraic operations (Qwen3), our approach demonstrates robust, competitive hallucination detection and cross-task generalization. Notably, these results hold for both pretrained and instruction-tuned variants without introducing any training overhead.