Boosting Latent Diffusion Models via Disentangled Representation Alignment
作者: John Page, Xuesong Niu, Kai Wu, Kun Gai
分类: cs.CV
发布日期: 2026-01-09
💡 一句话要点
提出Send-VAE,通过解耦表示对齐提升潜在扩散模型的生成质量与训练效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 潜在扩散模型 变分自编码器 语义解耦 表示对齐 视觉基础模型
📋 核心要点
- 现有方法对VAE和LDM使用相同的对齐目标,忽略了VAE更应关注语义解耦的需求,导致性能瓶颈。
- Send-VAE通过将VAE的潜在空间与预训练VFMs的语义层次结构对齐,显式地优化解耦表示学习。
- 实验表明,Send-VAE显著加快了训练速度,并在ImageNet 256x256上取得了SOTA的FID分数。
📝 摘要(中文)
潜在扩散模型(LDMs)通过在压缩的潜在空间中操作来生成高质量图像,该潜在空间通常通过变分自编码器(VAEs)等图像标记器获得。为了获得一个生成友好的VAE,最近的研究探索了利用视觉基础模型(VFMs)作为VAE的表示对齐目标,这与LDMs常用的方法类似。虽然这带来了一定的性能提升,但对VAE和LDMs使用相同的对齐目标忽略了它们根本不同的表示需求。我们认为,虽然LDMs受益于保留高层语义概念的潜在空间,但VAEs应该擅长语义解耦,从而能够以结构化的方式编码属性级信息。为了解决这个问题,我们提出了语义解耦VAE (Send-VAE),通过将其潜在空间与预训练VFMs的语义层次结构对齐,显式地优化解耦表示学习。我们的方法采用非线性映射网络来转换VAE潜在空间,将其与VFMs对齐,从而弥合属性级解耦和高层语义之间的差距,从而有效地指导VAE学习。我们通过属性预测任务上的线性探测来评估语义解耦,表明其与改进的生成性能密切相关。最后,使用Send-VAE,我们训练基于流的transformer SiTs;实验表明,Send-VAE显著加快了训练速度,并在ImageNet 256x256上实现了最先进的FID,在使用和不使用无分类器指导的情况下分别为1.21和1.75。
🔬 方法详解
问题定义:论文旨在解决现有潜在扩散模型(LDMs)训练中,变分自编码器(VAE)的表示学习与LDM的需求不匹配的问题。现有方法通常直接将视觉基础模型(VFMs)作为VAE和LDM的对齐目标,忽略了VAE应该更关注语义解耦,以便更好地编码属性级别的信息。这种不匹配导致VAE无法充分发挥其在LDM中的作用,限制了生成质量和训练效率。
核心思路:论文的核心思路是提出一种语义解耦的VAE(Send-VAE),通过显式地优化VAE的潜在空间,使其与预训练VFMs的语义层次结构对齐,从而实现更好的语义解耦。Send-VAE旨在弥合属性级别的解耦和高层语义之间的差距,使得VAE能够以结构化的方式编码属性级别的信息,并为LDM提供更有效的指导。
技术框架:Send-VAE的整体框架包括一个标准的VAE结构和一个非线性映射网络。VAE负责将图像编码到潜在空间,并从潜在空间解码回图像。非线性映射网络负责将VAE的潜在空间转换到与预训练VFMs的语义层次结构对齐的空间。训练过程包括两个阶段:首先,训练VAE以重建输入图像;然后,训练非线性映射网络以对齐VAE的潜在空间和VFMs的语义层次结构。
关键创新:论文的关键创新在于提出了语义解耦的VAE(Send-VAE),并采用非线性映射网络将VAE的潜在空间与预训练VFMs的语义层次结构对齐。这种方法能够显式地优化VAE的语义解耦能力,使其能够更好地编码属性级别的信息,并为LDM提供更有效的指导。与现有方法相比,Send-VAE更关注VAE的语义解耦能力,而不是简单地将VFMs作为VAE和LDM的对齐目标。
关键设计:Send-VAE的关键设计包括:1) 使用非线性映射网络将VAE的潜在空间转换到与VFMs的语义层次结构对齐的空间;2) 使用线性探测来评估语义解耦的程度,并将其作为训练的指导信号;3) 使用基于流的transformer(SiT)作为LDM,并使用Send-VAE作为图像标记器。具体的损失函数包括重建损失、KL散度和对齐损失。对齐损失用于衡量VAE的潜在空间与VFMs的语义层次结构之间的差异。
📊 实验亮点
实验结果表明,Send-VAE能够显著加快训练速度,并在ImageNet 256x256数据集上取得了state-of-the-art的FID分数。在使用和不使用无分类器指导的情况下,FID分别为1.21和1.75。通过线性探测评估语义解耦能力,结果表明Send-VAE能够有效地解耦图像的语义属性,并与生成性能有很强的相关性。
🎯 应用场景
该研究成果可应用于图像生成、图像编辑、图像修复等领域。通过提升潜在扩散模型的生成质量和训练效率,可以为创意设计、虚拟现实、游戏开发等应用提供更好的技术支持。未来,该方法有望扩展到其他生成模型和多模态数据生成任务中。
📄 摘要(原文)
Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.