Self-Attention as Transport: Limits of Symmetric Spectral Diagnostics

📄 arXiv: 2605.04893v1 📥 PDF

作者: Dominik Dahlem, Diego Maniloff, Mac Misiura

分类: cs.LG, cs.CL, stat.ML

发布日期: 2026-05-06

备注: 42 pages, 6 figures, 3 tables; 82-page online supplement (proofs, additional experiments, dataset statistics) as an ancillary file


💡 一句话要点

提出基于注意力的传输能力和方向性诊断方法,用于评估大语言模型的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 注意力机制 语言模型 幻觉 谱分析 信息流 传输能力 非对称系数 模型诊断

📋 核心要点

  1. 现有方法难以有效诊断大型语言模型中由于注意力机制失效导致的幻觉问题,尤其是在信息流方向的判断上。
  2. 论文提出了一种基于注意力传输能力和方向性的双轴诊断方法,利用谱分析和非对称系数来评估模型的注意力机制。
  3. 实验结果表明,该方法在长度控制的评估下,能够有效诊断模型幻觉,并在不同数据集上验证了极性预测的准确性。

📝 摘要(中文)

大型语言模型在生成文本时会产生可预测的幻觉。这种幻觉源于注意力机制的路由失败,具体表现为过度集中于少数位置或过于分散导致相关性稀释,并且失败的模式携带诊断信号。本文研究了度归一化注意力算子的对称分量,该算子控制传输能力。我们证明了该算子的每个转置不变谱诊断在结构上都是方向盲的,无法区分算子及其转置,因此无法检测信息流方向。定量地,我们建立了非对称系数G作为方向的唯一控制参数。结合典型因果架构的双向Cheeger景观的闭式解,我们表明均匀因果注意力满足一个与n无关的下界φ≥1/5,最差切割发生在t*/n≈0.32处,而窗口注意力则以O(w/n)的速度刺穿下界。由此产生的双轴诊断(φ代表容量,G代表方向)产生了一个可证伪的极性预测:瓶颈和扩散主导的基准应该表现出相反的极性。在长度控制的评估下,传输特征在高达8B参数的测试模型上保留了可解释的信号(LC-AUROC从0.62到0.84),并且在HaluEval和MedHallu之间,极性如预测的那样反转。

🔬 方法详解

问题定义:大型语言模型在生成文本时容易出现幻觉,这通常是由于注意力机制的失效引起的。现有的谱方法在诊断这种失效时,无法有效区分信息流的方向,即无法判断注意力是过度集中还是过度分散,从而限制了诊断的准确性。

核心思路:本文的核心思路是将注意力机制视为一种传输过程,并利用谱分析方法来研究其传输能力和方向性。通过分析度归一化注意力算子的对称分量,并引入非对称系数G作为方向的唯一控制参数,从而实现对注意力机制失效模式的更精确诊断。

技术框架:该方法主要包含以下几个阶段:1) 对注意力算子进行度归一化处理;2) 分析其对称分量的谱特性,提取传输能力指标φ;3) 计算非对称系数G,用于衡量信息流方向;4) 结合双向Cheeger景观的闭式解,对典型因果架构进行分析;5) 基于φ和G构建双轴诊断,用于预测模型幻觉的极性。

关键创新:该方法最重要的创新点在于提出了使用非对称系数G来量化注意力机制的信息流方向。与传统的谱方法相比,该方法能够区分注意力是过度集中还是过度分散,从而更准确地诊断模型幻觉。此外,该方法还结合了双向Cheeger景观的闭式解,为分析因果架构提供了理论基础。

关键设计:论文的关键设计包括:1) 使用度归一化注意力算子的对称分量来衡量传输能力;2) 引入非对称系数G作为方向的唯一控制参数;3) 结合双向Cheeger景观的闭式解,对典型因果架构进行分析;4) 构建双轴诊断(φ,G),用于预测模型幻觉的极性。这些设计使得该方法能够更全面、更准确地诊断模型幻觉。

📊 实验亮点

实验结果表明,该方法在长度控制的评估下,能够在高达8B参数的测试模型上保留可解释的信号(LC-AUROC从0.62到0.84)。此外,实验还验证了极性预测的准确性,即在HaluEval和MedHallu数据集上,模型幻觉的极性如预测的那样反转。

🎯 应用场景

该研究成果可应用于大型语言模型的评估和改进,帮助开发者诊断和解决模型幻觉问题,提高生成文本的质量和可靠性。此外,该方法还可以用于分析不同模型的注意力机制,从而更好地理解模型的内部工作原理。

📄 摘要(原文)

Large language models hallucinate in predictable ways: attention routing fails by over-concentrating on a narrow set of positions, or by spreading so diffusely that relevance is diluted, and the shape of the failure carries diagnostic signal. A widely used family of spectral methods analyzes the symmetric component of the degree-normalized attention operator, which governs transport capacity; we prove that every transpose-invariant spectral diagnostic of this operator is structurally orientation-blind (it cannot distinguish an operator from its transpose, and therefore cannot detect information-flow direction), with a quantitative converse establishing the asymmetry coefficient $G$ as the unique control parameter for direction. Pairing this with a closed-form bipartite-Cheeger landscape for canonical causal architectures, we show that uniform causal attention satisfies an $n$-independent floor $φ\ge 1/5$ with worst cut at $t^\ast/n \approx 0.32$, while window attention pierces the floor as $O(w/n)$; failure modes are shape-different, not just value-different. The resulting two-axis diagnostic ($φ$ for capacity, $G$ for direction) yields a falsifiable polarity prediction: bottleneck- and diffuse-dominated benchmarks should exhibit opposite polarity. Under length-controlled evaluation, transport features retain interpretable signal (LC-AUROC from 0.62 to 0.84) on tested models up to 8B parameters, with polarity reversing as predicted between HaluEval and MedHallu.