Geometric Autoencoder for Diffusion Models
作者: Hangyu Liu, Jianyong Wang, Yutao Sun
分类: cs.CV
发布日期: 2026-03-11
备注: Code and models are publicly available at https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models
🔗 代码/项目: GITHUB
💡 一句话要点
提出几何自编码器GAE,用于提升扩散模型的图像生成质量与效率。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 自编码器 视觉基础模型 潜在空间学习 图像生成
📋 核心要点
- 现有潜在扩散模型在潜在空间设计上缺乏系统性,难以同时保证语义区分性、重建质量和潜在空间的紧凑性。
- GAE通过从视觉基础模型中提取语义信息,并结合潜在归一化和动态噪声采样,优化自编码器的潜在空间。
- 实验表明,GAE在ImageNet-1K数据集上显著提升了图像生成质量,gFID指标优于现有方法,且无需分类器引导。
📝 摘要(中文)
潜在扩散模型在高分辨率图像生成领域取得了显著进展。虽然融合视觉基础模型(VFM)的先验知识可以提高生成效率,但现有的潜在空间设计在很大程度上仍然是启发式的,难以同时兼顾语义可区分性、重建保真度和潜在空间的紧凑性。本文提出了一种名为几何自编码器(GAE)的框架,系统地解决了这些挑战。GAE通过分析不同的对齐范式,从VFM构建优化的低维语义监督目标,为自编码器提供指导。此外,GAE利用潜在归一化取代了标准VAE中限制性的KL散度,从而实现更稳定的潜在流形,专门针对扩散学习进行优化。为了确保在高强度噪声下的鲁棒重建,GAE还引入了一种动态噪声采样机制。实验结果表明,GAE在ImageNet-1K $256 imes 256$ 基准测试中表现出色,仅经过80个epoch就达到了1.82的gFID,经过800个epoch达到了1.31的gFID,且无需分类器引导,显著超越了现有的state-of-the-art方法。GAE在压缩、语义深度和鲁棒重建稳定性之间建立了卓越的平衡,验证了设计考虑,为潜在扩散建模提供了一种有前景的范例。
🔬 方法详解
问题定义:论文旨在解决现有潜在扩散模型中,潜在空间设计缺乏系统性,导致语义区分性、重建保真度和潜在空间紧凑性难以兼顾的问题。现有方法通常依赖启发式设计,未能充分利用视觉基础模型(VFM)的先验知识,并且受限于VAE的KL散度约束,限制了潜在空间的表达能力。
核心思路:论文的核心思路是利用几何自编码器(GAE)构建一个更优的潜在空间,该空间能够更好地对齐VFM的语义信息,并具有更强的重建能力和更紧凑的表示。通过引入语义监督目标、潜在归一化和动态噪声采样,GAE能够克服现有方法的局限性,实现更好的图像生成效果。
技术框架:GAE的整体框架包括以下几个主要模块:1) 编码器:将输入图像编码到潜在空间;2) 语义监督模块:从VFM中提取语义信息,作为潜在空间的监督信号;3) 潜在归一化模块:取代KL散度,实现更灵活的潜在空间约束;4) 解码器:将潜在空间的表示解码为图像;5) 动态噪声采样模块:在训练过程中动态调整噪声水平,提高重建的鲁棒性。整个流程通过端到端的方式进行训练,以优化图像生成质量。
关键创新:GAE的关键创新在于以下几个方面:1) 提出了基于VFM的语义监督目标,引导潜在空间学习更丰富的语义信息;2) 引入了潜在归一化,取代了KL散度,允许更灵活的潜在空间分布;3) 设计了动态噪声采样机制,提高了在高强度噪声下的重建鲁棒性。这些创新使得GAE能够更好地平衡语义区分性、重建保真度和潜在空间紧凑性。
关键设计:在语义监督模块中,论文分析了不同的对齐范式,并选择了一种最优的对齐方式。在潜在归一化模块中,论文采用了一种自适应的归一化方法,根据数据的分布动态调整归一化的参数。在动态噪声采样模块中,论文设计了一种基于训练进度的噪声调度策略,逐步增加噪声水平,提高模型的鲁棒性。损失函数包括重建损失、语义对齐损失和潜在归一化损失,通过加权求和的方式进行优化。
🖼️ 关键图片
📊 实验亮点
GAE在ImageNet-1K $256 imes 256$ 基准测试中取得了显著的性能提升。仅经过80个epoch的训练,GAE就达到了1.82的gFID,经过800个epoch达到了1.31的gFID,且无需分类器引导。这些结果显著超越了现有的state-of-the-art方法,证明了GAE在图像生成质量方面的优势。
🎯 应用场景
该研究成果可应用于图像生成、图像编辑、图像修复等领域。通过构建更优的潜在空间,可以提高生成图像的质量和可控性,降低计算成本。未来,该方法有望扩展到视频生成、3D内容生成等更复杂的任务中,并促进相关领域的发展。
📄 摘要(原文)
Latent diffusion models have established a new state-of-the-art in high-resolution visual generation. Integrating Vision Foundation Model priors improves generative efficiency, yet existing latent designs remain largely heuristic. These approaches often struggle to unify semantic discriminability, reconstruction fidelity, and latent compactness. In this paper, we propose Geometric Autoencoder (GAE), a principled framework that systematically addresses these challenges. By analyzing various alignment paradigms, GAE constructs an optimized low-dimensional semantic supervision target from VFMs to provide guidance for the autoencoder. Furthermore, we leverage latent normalization that replaces the restrictive KL-divergence of standard VAEs, enabling a more stable latent manifold specifically optimized for diffusion learning. To ensure robust reconstruction under high-intensity noise, GAE incorporates a dynamic noise sampling mechanism. Empirically, GAE achieves compelling performance on the ImageNet-1K $256 \times 256$ benchmark, reaching a gFID of 1.82 at only 80 epochs and 1.31 at 800 epochs without Classifier-Free Guidance, significantly surpassing existing state-of-the-art methods. Beyond generative quality, GAE establishes a superior equilibrium between compression, semantic depth and robust reconstruction stability. These results validate our design considerations, offering a promising paradigm for latent diffusion modeling. Code and models are publicly available at https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.