A Multi-Level Causal Intervention Framework for Mechanistic Interpretability in Variational Autoencoders
作者: Dip Roy, Rajiv Misra, Sanjay Kumar Singh, Anisha Roy
分类: cs.LG
发布日期: 2026-04-07
💡 一句话要点
提出多层次因果干预框架,用于变分自编码器的机制可解释性研究
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)
关键词: 变分自编码器 机制可解释性 因果干预 解耦表示 生成模型
📋 核心要点
- 现有方法在变分自编码器(VAEs)的机制可解释性方面研究不足,难以理解其内部表征和数据转换过程。
- 论文提出多层次因果干预框架,通过输入操作、潜在空间扰动等手段,揭示VAE内部机制。
- 实验结果表明,因果效应强度(CES)与DCI解耦度存在负相关,且不同VAE架构在不同数据集上表现各异。
📝 摘要(中文)
理解生成模型如何表示和转换数据是深度学习可解释性的一个基础问题。虽然判别式架构的机制可解释性已经取得了显著的成果,但相对较少的工作关注变分自编码器(VAEs)。本文提出了第一个通用的多层次因果干预框架,用于VAEs的机制可解释性。该框架包括四种操作类型:输入操作、潜在空间扰动、激活修补和因果中介分析。我们还定义了三个新的定量指标,用于捕捉现有解耦指标无法衡量的属性:因果效应强度(CES)、干预特异性和电路模块化。我们对六种架构(标准VAE、beta-VAE、FactorVAE、beta-TC-VAE、DIP-VAE-II和VQ-VAE)和五个基准数据集(dSprites、3DShapes、MPI3D、CelebA和SmallNORB)进行了迄今为止最大规模的VAE因果机制实证研究,每种配置使用三个随机种子,总计90次独立训练。
🔬 方法详解
问题定义:现有方法难以有效解释变分自编码器(VAEs)的内部工作机制,特别是其如何学习和表示数据中的潜在因素。缺乏有效的工具和指标来量化和理解VAE的因果关系,阻碍了对生成模型更深入的理解和控制。
核心思路:论文的核心思路是通过因果干预的方法,主动改变VAE的输入、潜在空间或中间激活,然后观察这些改变对输出的影响,从而推断VAE内部的因果关系。通过设计不同的干预策略和量化指标,揭示VAE学习到的潜在因素及其相互作用。
技术框架:该框架包含四个主要模块:1) 输入操作:直接修改输入数据,观察对潜在空间和输出的影响。2) 潜在空间扰动:在潜在空间中引入扰动,例如改变特定维度,观察对生成结果的影响。3) 激活修补:将一个模型的激活值替换为另一个模型的激活值,观察对输出的影响。4) 因果中介分析:分析潜在变量在输入和输出之间的中介作用,量化其因果效应。
关键创新:该论文的关键创新在于提出了一个通用的、多层次的因果干预框架,专门用于VAE的机制可解释性研究。该框架不仅提供了多种干预手段,还定义了新的量化指标(CES、干预特异性、电路模块化),用于更全面地评估VAE的因果关系和解耦程度。与传统的解耦指标相比,这些新指标更关注因果效应的强度和特异性。
关键设计:在潜在空间扰动中,论文考虑了不同类型的扰动方式,例如添加噪声、改变特定维度的值等。在激活修补中,需要仔细选择修补的位置和方式,以确保修补的有效性。在因果中介分析中,使用了特定的统计方法来量化潜在变量的中介效应。此外,论文还针对离散潜在空间(VQ-VAE)的特点,讨论了连续干预方法的局限性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,因果效应强度(CES)与DCI解耦度之间存在负相关关系,揭示了CES-DCI的权衡。此外,beta-VAE的KL重加权机制在复杂数据集上会导致容量瓶颈,降低解耦性能。实验还发现,没有一种VAE架构在所有数据集上都表现最佳,最佳选择取决于数据集的结构。
🎯 应用场景
该研究成果可应用于提升生成模型的可控性和可靠性。例如,在图像生成领域,可以利用该框架更好地理解和控制生成图像的属性,从而实现更精确的图像编辑和生成。此外,该框架还可以用于评估和比较不同VAE架构的解耦性能,指导模型选择和设计。
📄 摘要(原文)
Understanding how generative models represent and transform data is a foundational problem in deep learning interpretability. While mechanistic interpretability of discriminative architectures has yielded substantial insights, relatively little work has addressed variational autoencoders (VAEs). This paper presents the first general-purpose multilevel causal intervention framework for mechanistic interpretability of VAEs. The framework comprises four manipulation types: input manipulation, latent-space perturbation, activation patching, and causal mediation analysis. We also define three new quantitative metrics capturing properties not measured by existing disentanglement metrics alone: Causal Effect Strength (CES), intervention specificity, and circuit modularity. We conduct the largest empirical study to date of VAE causal mechanisms across six architectures (standard VAE, beta-VAE, FactorVAE, beta-TC-VAE, DIP-VAE-II, and VQ-VAE) and five benchmarks (dSprites, 3DShapes, MPI3D, CelebA, and SmallNORB), with three seeds per configuration, totaling 90 independent training runs. Our results reveal several findings: (i) a consistent within-dataset negative correlation between CES and DCI disentanglement (the CES-DCI trade-off); (ii) that the KL reweighting mechanism of beta-VAE induces a capacity bottleneck when generative factors approach latent dimensionality, degrading disentanglement on complex datasets; (iii) that no single VAE architecture dominates across all five datasets, with optimal choice depending on dataset structure; and (iv) that CES-based metrics applied to discrete latent spaces (VQ-VAE) yield near-zero values, revealing a critical limitation of continuous-intervention methods for discrete representations. These results provide both a theoretical foundation and comprehensive empirical evaluation for mechanistic interpretability of generative models.