Statistical and structural identifiability in representation learning

📄 arXiv: 2603.11970v1 📥 PDF

作者: Walter Nelson, Marco Fumero, Theofanis Karaletsos, Francesco Locatello

分类: cs.LG

发布日期: 2026-03-12

备注: International Conference on Learning Representations (ICLR) 2026


💡 一句话要点

提出统计和结构可辨识性概念,提升表征学习模型的稳定性和可解释性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表征学习 可辨识性 解耦学习 独立成分分析 自编码器 细胞显微镜 统计推断

📋 核心要点

  1. 现有表征学习研究缺乏对模型内部表征稳定性的细致区分,通常将其视为单一属性。
  2. 论文将表征稳定性解耦为统计可辨识性和结构可辨识性,并提出近可辨识性的概念,允许一定误差。
  3. 实验表明,结合ICA后处理的自编码器在解耦任务上表现出色,尤其是在细胞显微镜图像分析中。

📝 摘要(中文)

表征学习模型在其内部表征中表现出惊人的稳定性。本文将这种稳定性形式化为两个不同的概念:统计可辨识性(多次运行中表征的一致性)和结构可辨识性(表征与某些未观察到的真实情况的对齐)。考虑到对于现代表征学习模型而言,完美的逐点可辨识性通常是不现实的,我们提出了新的、模型无关的统计和结构近可辨识性的定义,误差容限为ε。利用这些定义,我们证明了具有非线性解码器的模型的表征的统计ε-近可辨识性结果,将现有的可辨识性理论从生成式预训练Transformer(GPT)中的最后一层表征推广到包括(掩码)自编码器(MAE)和监督学习器在内的广泛模型的中间表征的近可辨识性。虽然这些较弱的假设赋予了较弱的可辨识性,但我们表明,独立成分分析(ICA)可以解决此类模型的大部分剩余线性模糊性,并经验性地验证和测量我们的近可辨识性声明。在对数据生成过程进行额外假设的情况下,统计可辨识性扩展到结构可辨识性,从而产生了一种简单实用的解耦方法:对潜在表征进行ICA后处理。在合成基准测试中,这种方法使用vanilla自编码器实现了最先进的解耦效果。对于细胞显微镜的基础模型规模的MAE,它可以将生物学变异与技术批次效应分离,从而大大提高了下游泛化能力。

🔬 方法详解

问题定义:论文旨在解决表征学习模型中内部表征的稳定性和可解释性问题。现有方法通常将表征的稳定性视为一个单一属性,缺乏对统计可辨识性(表征在不同运行中的一致性)和结构可辨识性(表征与真实世界因素的对齐)的区分。此外,现有理论通常假设完美的可辨识性,这在复杂的深度学习模型中是不现实的。

核心思路:论文的核心思路是将表征的稳定性分解为统计可辨识性和结构可辨识性,并引入“近可辨识性”的概念,允许一定程度的误差。通过这种方式,论文能够更准确地描述实际模型中的表征行为,并为解耦学习提供理论基础。此外,论文还强调了独立成分分析(ICA)在解决线性模糊性方面的作用。

技术框架:论文的技术框架主要包括以下几个部分:1) 形式化定义统计和结构近可辨识性;2) 证明具有非线性解码器的模型的表征的统计ε-近可辨识性;3) 验证ICA在解决线性模糊性方面的作用;4) 在合成数据和真实数据上进行实验验证。整体流程是先建立理论基础,然后通过实验验证理论的有效性。

关键创新:论文最重要的技术创新点在于提出了统计和结构近可辨识性的概念,并证明了在一定条件下,即使模型不具备完美的可辨识性,仍然可以通过ICA等方法实现有效的解耦。这为理解和改进表征学习模型提供了一种新的视角。与现有方法的本质区别在于,论文不再追求完美的可辨识性,而是关注在一定误差范围内的可辨识性,这更符合实际情况。

关键设计:论文的关键设计包括:1) 定义了统计ε-近可辨识性和结构ε-近可辨识性的数学形式;2) 证明了具有非线性解码器的模型的表征的统计ε-近可辨识性;3) 提出了使用ICA对潜在表征进行后处理的解耦方法;4) 在细胞显微镜图像分析中,使用MAE作为基础模型,并结合ICA进行解耦。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在合成数据集上,该方法使用vanilla自编码器实现了最先进的解耦效果。在细胞显微镜图像分析中,该方法成功地将生物学变异与技术批次效应分离,显著提高了下游泛化能力,表明该方法在实际应用中具有很强的潜力。

🎯 应用场景

该研究成果可应用于各种表征学习任务,例如图像识别、自然语言处理和生物信息学。特别是在需要解耦潜在因素的应用中,例如细胞显微镜图像分析,该方法可以有效地分离生物学变异和技术批次效应,从而提高下游任务的泛化能力。未来,该方法有望应用于更广泛的科学发现和工程应用中。

📄 摘要(原文)

Representation learning models exhibit a surprising stability in their internal representations. Whereas most prior work treats this stability as a single property, we formalize it as two distinct concepts: statistical identifiability (consistency of representations across runs) and structural identifiability (alignment of representations with some unobserved ground truth). Recognizing that perfect pointwise identifiability is generally unrealistic for modern representation learning models, we propose new model-agnostic definitions of statistical and structural near-identifiability of representations up to some error tolerance $ε$. Leveraging these definitions, we prove a statistical $ε$-near-identifiability result for the representations of models with nonlinear decoders, generalizing existing identifiability theory beyond last-layer representations in e.g. generative pre-trained transformers (GPTs) to near-identifiability of the intermediate representations of a broad class of models including (masked) autoencoders (MAEs) and supervised learners. Although these weaker assumptions confer weaker identifiability, we show that independent components analysis (ICA) can resolve much of the remaining linear ambiguity for this class of models, and validate and measure our near-identifiability claims empirically. With additional assumptions on the data-generating process, statistical identifiability extends to structural identifiability, yielding a simple and practical recipe for disentanglement: ICA post-processing of latent representations. On synthetic benchmarks, this approach achieves state-of-the-art disentanglement using a vanilla autoencoder. With a foundation model-scale MAE for cell microscopy, it disentangles biological variation from technical batch effects, substantially improving downstream generalization.