Entropic Auto-Encoding via Implicit Free-Energy Minimization
作者: Hazhir Aliahmadi, Irina Babayan, Greg van Anders
分类: cs.LG
发布日期: 2026-05-15
备注: 22 pages, 5 figures
💡 一句话要点
提出Entropic Autoencoders,通过隐式自由能最小化缓解VAE中的后验崩溃问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自编码器 变分自编码器 后验崩溃 隐变量模型 自由能最小化
📋 核心要点
- 变分自编码器(VAE)存在后验崩溃问题,导致隐变量学习失效,无法有效捕捉数据中的潜在结构。
- Entropic Autoencoders (EAEs)仅使用重构损失作为显式目标,通过自由能最小化隐式地学习隐变量的先验分布。
- EAEs能够学习非高斯、多模态的隐分布,有效缓解后验崩溃,并在MNIST和CelebA数据集上展示了其捕捉数据结构的能力。
📝 摘要(中文)
变分自编码器(VAEs)普遍存在后验崩溃问题,即隐变量被忽略。这是因为显式先验施加将优化推向对应于无信息隐表示的损失地形区域。本文提出了Entropic Autoencoders (EAEs),其中重构损失是唯一的显式目标,熵通过自由能最小化的编码器集成隐式地生成隐变量的先验。这种集成偏向于学习接近最优解的高容量区域,而解码器更新则将搜索轨迹导向信息丰富的隐表示。实验表明,EAEs通过学习非高斯、多模态的隐分布来缓解后验崩溃,从而产生多样且数据一致的生成结果,并保留数据中不同形式的底层结构。作为概念验证,EAE捕获了反应扩散过程的已知低维动力学的叠加。此外,EAE识别了MNIST隐表示中的隐式分类区别,并展示了CelebA数据集上面部结构的层次化理解,从“全人类”面孔到个体相关的特征。
🔬 方法详解
问题定义:变分自编码器(VAE)在训练过程中容易出现后验崩溃的问题。具体表现为,解码器忽略隐变量,直接从先验分布生成数据,导致隐变量无法有效捕捉数据的潜在结构和信息。现有的VAE方法通常依赖于显式地施加先验分布,但这往往会将优化过程推向损失地形中对应于无信息隐表示的区域,从而加剧后验崩溃。
核心思路:Entropic Autoencoders (EAEs)的核心思路是通过隐式地学习隐变量的先验分布来避免后验崩溃。EAEs不再显式地施加先验分布,而是利用熵的概念,通过一个自由能最小化的编码器集成来隐式地生成隐变量的先验。这种方法鼓励模型探索解空间中高容量的区域,从而避免陷入局部最优解,并促进学习到信息丰富的隐表示。
技术框架:EAEs的整体框架仍然是一个自编码器的结构,包括编码器和解码器。与传统VAE不同的是,EAEs使用一个编码器集成,而不是单个编码器。这个编码器集成通过自由能最小化来隐式地学习隐变量的先验分布。具体来说,EAEs的目标是最小化重构损失,同时最大化编码器集成的熵。解码器则负责从隐变量重构输入数据。整个训练过程通过交替更新编码器和解码器来完成。
关键创新:EAEs最重要的技术创新点在于其隐式先验学习机制。与传统VAE显式地施加先验分布不同,EAEs通过自由能最小化的编码器集成来隐式地学习先验分布。这种方法避免了显式先验带来的限制,允许模型学习更灵活、更复杂的隐变量分布。此外,EAEs鼓励模型探索解空间中高容量的区域,从而避免陷入局部最优解,并促进学习到信息丰富的隐表示。
关键设计:EAEs的关键设计包括以下几个方面:1) 编码器集成:使用多个编码器来构成一个集成,每个编码器都学习一个不同的隐表示。2) 自由能最小化:通过最小化自由能来隐式地学习隐变量的先验分布。自由能由重构损失和编码器集成的熵组成。3) 熵正则化:通过最大化编码器集成的熵来鼓励模型探索解空间中高容量的区域。4) 网络结构:编码器和解码器可以使用各种不同的网络结构,例如卷积神经网络或循环神经网络。具体的网络结构取决于所处理的数据类型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EAEs能够有效缓解后验崩溃问题,学习到非高斯、多模态的隐分布。在MNIST数据集上,EAEs能够识别隐式分类区别。在CelebA数据集上,EAEs能够展示面部结构的层次化理解,从“全人类”面孔到个体相关的特征。这些结果表明,EAEs能够更好地捕捉数据中的潜在结构,并生成更逼真的数据。
🎯 应用场景
Entropic Autoencoders (EAEs) 在多个领域具有潜在的应用价值。例如,在生成模型领域,EAEs可以生成更多样化、更逼真的图像、文本和音频。在表示学习领域,EAEs可以学习到更鲁棒、更具信息量的隐表示,用于下游任务,如分类、聚类和检索。此外,EAEs还可以应用于异常检测、数据降维和数据可视化等领域,具有广阔的应用前景。
📄 摘要(原文)
Despite their ubiquity, variational autoencoders (VAEs) inherently suffer from posterior collapse, a failure mode in which latent variables are effectively ignored. This failure arises because explicit prior imposition drives optimization toward loss landscape regions corresponding to uninformative latent representations. Here, we introduce Entropic Autoencoders (EAEs), a framework in which reconstruction loss is the only explicit objective, and entropy generates the latent variables' prior implicitly through a free energy-minimizing ensemble of encoders. This ensemble biases learning toward high-volume regions of near-optimal solutions, while decoder updates direct the search trajectories toward informative latent representations. We demonstrate that EAEs mitigate posterior collapse by learning non-Gaussian, multimodal latent distributions that yield diverse, data-consistent generations and preserve different forms of underlying structure in the data. As a proof-of-concept, we show that an EAE captures a superposition of the known low-dimensional dynamics of a reaction-diffusion process. Then, we show that an EAE identifies implicit categorical distinctions in MNIST latent representations, and displays a hierarchical understanding of facial structure on the CelebA dataset, from an "all-human" face to individual-dependent features.