Measuring Uncertainty in Transformer Circuits with Effective Information Consistency

作者: Anatoly A. Krasnovsky

分类: cs.LG, cs.AI, cs.CL, cs.IT

发布日期: 2025-09-08

期刊: Russian Digital Libraries Journal, Vol. 28, No. 5, pp. 1103-1119, 2025

DOI: 10.26907/1562-5419-2025-28-5-1103-1119

💡 一句话要点

提出有效信息一致性评分(EICS)以量化Transformer Circuits的不确定性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Transformer Circuits 机制可解释性 不确定性量化 有效信息 因果涌现

📋 核心要点

现有方法缺乏量化Transformer Circuits行为一致性的正式且单次计算的方法，难以判断其是否可信。
本文提出EICS，结合sheaf不一致性和因果涌现代理，用于评估Transformer Circuits的行为一致性。
该方法是白盒的、单次计算的，并提供了分数解释、计算开销和健全性检查的实用指导。

📝 摘要（中文）

本文针对大型语言模型(LLM)中Transformer Circuits(TCs)的行为一致性问题，提出了有效信息一致性评分(EICS)。该方法基于sheaf/cohomology和因果涌现视角，结合了(i)从局部Jacobians和激活计算得到的归一化sheaf不一致性，以及(ii)从相同前向状态导出的电路级因果涌现的高斯EI代理。EICS是白盒的、单次计算的，并且明确地考虑了单元，因此分数是无量纲的。本文还提供了关于分数解释、计算开销（具有快速和精确模式）以及玩具健全性检查分析的实用指导。LLM任务的实证验证被推迟。

🔬 方法详解

问题定义：现有方法在量化Transformer Circuits（TCs）的行为一致性方面存在不足。虽然机制可解释性已经识别出LLM中实现特定算法的TCs，但缺乏一种正式的、单次计算的方法来量化活跃电路的行为是否连贯，从而判断其是否可信。现有的系统理论方法不够具体，难以直接应用于TCs。

核心思路：本文的核心思路是将sheaf/cohomology理论和因果涌现的视角应用于TCs，从而量化电路的行为一致性。通过结合局部Jacobians和激活信息，以及电路级别的因果涌现代理，可以评估电路在执行任务时的连贯性和可信度。EICS旨在提供一种白盒、单次计算且无量纲的评分，以便更好地理解和信任LLM的行为。

技术框架：EICS的计算框架包含两个主要组成部分：(i) 归一化sheaf不一致性，通过计算局部Jacobians和激活来衡量电路内部信息流的不一致程度；(ii) 高斯EI代理，用于估计电路级别的因果涌现，反映电路整体行为的复杂性和有效性。这两个部分结合起来，形成一个综合的评分，用于评估电路的行为一致性。整个过程是单次前向计算，不需要额外的训练或优化。

关键创新：本文的关键创新在于将sheaf/cohomology理论和因果涌现的概念应用于Transformer Circuits，并提出了EICS这一量化指标。与现有方法相比，EICS提供了一种更加正式、白盒且单次计算的评估方法，能够更好地理解和信任LLM的行为。此外，EICS是无量纲的，便于比较不同电路和模型的行为一致性。

关键设计：EICS的关键设计包括：(1) 使用局部Jacobians来捕捉电路内部信息流的局部变化；(2) 使用归一化方法来消除不同单元和激活范围的影响；(3) 使用高斯EI代理来估计电路级别的因果涌现；(4) 将sheaf不一致性和因果涌现代理结合起来，形成一个综合的评分。此外，本文还提供了关于分数解释、计算开销和健全性检查的实用指导，以便更好地应用EICS。

🖼️ 关键图片

📊 实验亮点

论文提出了有效信息一致性评分(EICS)，并提供了快速和精确两种计算模式。通过玩具健全性检查分析，验证了EICS的有效性。虽然LLM任务的实证验证被推迟，但该方法为量化Transformer Circuits的不确定性提供了一个新的思路。

🎯 应用场景

该研究成果可应用于大型语言模型的安全性和可靠性评估，帮助识别和修复潜在的错误行为。通过量化Transformer Circuits的行为一致性，可以提高模型的可解释性和可信度，从而在金融、医疗等关键领域得到更广泛的应用。未来，EICS可以进一步扩展到其他类型的神经网络和任务中。

📄 摘要（原文）

Mechanistic interpretability has identified functional subgraphs within large language models (LLMs), known as Transformer Circuits (TCs), that appear to implement specific algorithms. Yet we lack a formal, single-pass way to quantify when an active circuit is behaving coherently and thus likely trustworthy. Building on prior systems-theoretic proposals, we specialize a sheaf/cohomology and causal emergence perspective to TCs and introduce the Effective-Information Consistency Score (EICS). EICS combines (i) a normalized sheaf inconsistency computed from local Jacobians and activations, with (ii) a Gaussian EI proxy for circuit-level causal emergence derived from the same forward state. The construction is white-box, single-pass, and makes units explicit so that the score is dimensionless. We further provide practical guidance on score interpretation, computational overhead (with fast and exact modes), and a toy sanity-check analysis. Empirical validation on LLM tasks is deferred.

Measuring Uncertainty in Transformer Circuits with Effective Information Consistency

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理