Measuring Uncertainty in Transformer Circuits with Effective Information Consistency
作者: Anatoly A. Krasnovsky
分类: cs.LG, cs.AI, cs.CL, cs.IT
发布日期: 2025-09-08
期刊: Russian Digital Libraries Journal, Vol. 28, No. 5, pp. 1103-1119, 2025
DOI: 10.26907/1562-5419-2025-28-5-1103-1119
💡 一句话要点
提出有效信息一致性评分(EICS)以量化Transformer Circuits的不确定性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer Circuits 机制可解释性 不确定性量化 有效信息 因果涌现
📋 核心要点
- 现有方法缺乏量化Transformer Circuits行为一致性的正式且单次计算的方法,难以判断其是否可信。
- 本文提出EICS,结合sheaf不一致性和因果涌现代理,用于评估Transformer Circuits的行为一致性。
- 该方法是白盒的、单次计算的,并提供了分数解释、计算开销和健全性检查的实用指导。
📝 摘要(中文)
本文针对大型语言模型(LLM)中Transformer Circuits(TCs)的行为一致性问题,提出了有效信息一致性评分(EICS)。该方法基于sheaf/cohomology和因果涌现视角,结合了(i)从局部Jacobians和激活计算得到的归一化sheaf不一致性,以及(ii)从相同前向状态导出的电路级因果涌现的高斯EI代理。EICS是白盒的、单次计算的,并且明确地考虑了单元,因此分数是无量纲的。本文还提供了关于分数解释、计算开销(具有快速和精确模式)以及玩具健全性检查分析的实用指导。LLM任务的实证验证被推迟。
🔬 方法详解
问题定义:现有方法在量化Transformer Circuits(TCs)的行为一致性方面存在不足。虽然机制可解释性已经识别出LLM中实现特定算法的TCs,但缺乏一种正式的、单次计算的方法来量化活跃电路的行为是否连贯,从而判断其是否可信。现有的系统理论方法不够具体,难以直接应用于TCs。
核心思路:本文的核心思路是将sheaf/cohomology理论和因果涌现的视角应用于TCs,从而量化电路的行为一致性。通过结合局部Jacobians和激活信息,以及电路级别的因果涌现代理,可以评估电路在执行任务时的连贯性和可信度。EICS旨在提供一种白盒、单次计算且无量纲的评分,以便更好地理解和信任LLM的行为。
技术框架:EICS的计算框架包含两个主要组成部分:(i) 归一化sheaf不一致性,通过计算局部Jacobians和激活来衡量电路内部信息流的不一致程度;(ii) 高斯EI代理,用于估计电路级别的因果涌现,反映电路整体行为的复杂性和有效性。这两个部分结合起来,形成一个综合的评分,用于评估电路的行为一致性。整个过程是单次前向计算,不需要额外的训练或优化。
关键创新:本文的关键创新在于将sheaf/cohomology理论和因果涌现的概念应用于Transformer Circuits,并提出了EICS这一量化指标。与现有方法相比,EICS提供了一种更加正式、白盒且单次计算的评估方法,能够更好地理解和信任LLM的行为。此外,EICS是无量纲的,便于比较不同电路和模型的行为一致性。
关键设计:EICS的关键设计包括:(1) 使用局部Jacobians来捕捉电路内部信息流的局部变化;(2) 使用归一化方法来消除不同单元和激活范围的影响;(3) 使用高斯EI代理来估计电路级别的因果涌现;(4) 将sheaf不一致性和因果涌现代理结合起来,形成一个综合的评分。此外,本文还提供了关于分数解释、计算开销和健全性检查的实用指导,以便更好地应用EICS。
🖼️ 关键图片
📊 实验亮点
论文提出了有效信息一致性评分(EICS),并提供了快速和精确两种计算模式。通过玩具健全性检查分析,验证了EICS的有效性。虽然LLM任务的实证验证被推迟,但该方法为量化Transformer Circuits的不确定性提供了一个新的思路。
🎯 应用场景
该研究成果可应用于大型语言模型的安全性和可靠性评估,帮助识别和修复潜在的错误行为。通过量化Transformer Circuits的行为一致性,可以提高模型的可解释性和可信度,从而在金融、医疗等关键领域得到更广泛的应用。未来,EICS可以进一步扩展到其他类型的神经网络和任务中。
📄 摘要(原文)
Mechanistic interpretability has identified functional subgraphs within large language models (LLMs), known as Transformer Circuits (TCs), that appear to implement specific algorithms. Yet we lack a formal, single-pass way to quantify when an active circuit is behaving coherently and thus likely trustworthy. Building on prior systems-theoretic proposals, we specialize a sheaf/cohomology and causal emergence perspective to TCs and introduce the Effective-Information Consistency Score (EICS). EICS combines (i) a normalized sheaf inconsistency computed from local Jacobians and activations, with (ii) a Gaussian EI proxy for circuit-level causal emergence derived from the same forward state. The construction is white-box, single-pass, and makes units explicit so that the score is dimensionless. We further provide practical guidance on score interpretation, computational overhead (with fast and exact modes), and a toy sanity-check analysis. Empirical validation on LLM tasks is deferred.