EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs
作者: Davide Ettori, Nastaran Darabi, Sina Tayebati, Ranganath Krishnan, Mahesh Subedar, Omesh Tickoo, Amit Ranjan Trivedi
分类: cs.LG
发布日期: 2025-09-19 (更新: 2025-09-29)
备注: 5 pages, submitted to ICASSP 2026, September 2025
💡 一句话要点
EigenTrack:利用谱激活特征追踪检测LLM和VLM中的幻觉和OOD
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉检测 分布外检测 谱分析 时间序列分析
📋 核心要点
- 大型语言模型容易产生幻觉和分布外错误,现有方法难以实时且可解释地检测这些问题。
- EigenTrack利用隐藏层激活的谱几何特性,通过追踪协方差谱统计量的变化来检测幻觉和OOD漂移。
- EigenTrack仅需单次前向传播,无需重采样,并能提供准确性与延迟之间的权衡,具有良好的实用性。
📝 摘要(中文)
大型语言模型(LLM)应用广泛,但容易出现幻觉和分布外(OOD)错误。我们提出了EigenTrack,一种可解释的实时检测器,它利用隐藏激活的谱几何,即模型动态的紧凑全局签名。通过将协方差谱统计量(如熵、特征值间隙和KL散度)从随机基线流式传输到轻量级循环分类器中,EigenTrack在表面错误出现之前,跟踪表示结构中的时间变化,这些变化表明幻觉和OOD漂移。与黑盒和灰盒方法不同,它只需要一次前向传递,无需重采样。与现有的白盒检测器不同,它保留了时间上下文,聚合全局信号,并提供可解释的准确性-延迟权衡。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)和视觉语言模型(VLM)中普遍存在的幻觉和分布外(OOD)检测问题。现有的黑盒、灰盒方法需要多次采样或修改模型结构,计算成本高昂,难以实时应用。而现有的白盒方法通常缺乏时间上下文感知能力,无法有效聚合全局信号。
核心思路:EigenTrack的核心思路是利用模型隐藏层激活的谱几何特性作为模型动态的全局签名。通过分析激活协方差矩阵的特征谱,可以捕捉模型内部表示结构的变化,这些变化往往预示着幻觉或OOD事件的发生。该方法无需修改模型结构,仅需单次前向传播,计算效率高。
技术框架:EigenTrack的整体框架包括以下几个主要阶段:1) 激活提取:从模型的隐藏层提取激活向量。2) 协方差计算:计算激活向量的协方差矩阵。3) 谱分析:对协方差矩阵进行特征分解,得到特征值和特征向量。4) 特征提取:从特征谱中提取统计特征,如熵、特征值间隙和KL散度。5) 序列分类:将提取的特征序列输入到轻量级的循环分类器(如LSTM或GRU)中,预测当前时刻模型是否出现幻觉或OOD。
关键创新:EigenTrack的关键创新在于将谱分析方法应用于LLM和VLM的幻觉和OOD检测。与现有方法相比,EigenTrack具有以下优势:1) 实时性:仅需单次前向传播,计算效率高。2) 可解释性:谱特征能够反映模型内部表示结构的变化。3) 全局性:能够聚合来自整个模型的全局信号。4) 时间上下文感知:利用循环分类器捕捉时间序列信息。
关键设计:EigenTrack的关键设计包括:1) 隐藏层选择:选择合适的隐藏层提取激活向量,通常选择靠近输出层的隐藏层。2) 谱特征选择:选择合适的谱特征,如熵、特征值间隙和KL散度,以捕捉模型动态的变化。3) 循环分类器设计:设计轻量级的循环分类器,如单层LSTM或GRU,以捕捉时间序列信息。4) 训练数据选择:选择具有代表性的训练数据,包括正常数据、幻觉数据和OOD数据,以训练循环分类器。
📊 实验亮点
论文通过实验验证了EigenTrack在幻觉和OOD检测方面的有效性。实验结果表明,EigenTrack在多个数据集上取得了优于现有方法的性能,能够在表面错误出现之前提前检测到幻觉和OOD漂移。此外,EigenTrack还具有良好的准确性-延迟权衡,可以根据实际需求调整参数,以满足不同的性能要求。
🎯 应用场景
EigenTrack可应用于各种需要可靠LLM和VLM输出的场景,例如自动驾驶、医疗诊断、金融风控等。通过实时检测幻觉和OOD错误,可以提高系统的安全性和可靠性,避免因模型错误输出而造成的损失。未来,EigenTrack可以进一步扩展到其他类型的AI模型,并与其他检测方法相结合,构建更强大的安全保障体系。
📄 摘要(原文)
Large language models (LLMs) offer broad utility but remain prone to hallucination and out-of-distribution (OOD) errors. We propose EigenTrack, an interpretable real-time detector that uses the spectral geometry of hidden activations, a compact global signature of model dynamics. By streaming covariance-spectrum statistics such as entropy, eigenvalue gaps, and KL divergence from random baselines into a lightweight recurrent classifier, EigenTrack tracks temporal shifts in representation structure that signal hallucination and OOD drift before surface errors appear. Unlike black- and grey-box methods, it needs only a single forward pass without resampling. Unlike existing white-box detectors, it preserves temporal context, aggregates global signals, and offers interpretable accuracy-latency trade-offs.