REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

作者: Giorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou

分类: cs.CV

发布日期: 2025-12-18

🔗 代码/项目: GITHUB

💡 一句话要点

REGLUE：融合全局与局部语义的解耦扩散模型，提升图像合成质量与收敛速度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 潜在扩散模型 视觉基础模型 语义注入 图像合成 全局局部语义 非线性压缩 表征对齐

📋 核心要点

现有潜在扩散模型语义监督不足，导致训练时间长，样本质量受限，无法充分利用视觉基础模型(VFMs)的丰富语义信息。
REGLUE通过联合建模VAE潜在变量、局部VFM语义和全局[CLS] token，并在扩散过程中将它们纠缠，实现更有效的语义注入。
实验表明，REGLUE在ImageNet 256x256上显著提升了FID，并加速了收敛速度，优于现有方法。

📝 摘要（中文）

潜在扩散模型(LDMs)在图像合成方面取得了最先进的成果，但其重建式去噪目标仅提供间接的语义监督：高层语义缓慢出现，需要更长的训练时间并限制了样本质量。最近的研究通过表征对齐从视觉基础模型(VFMs)外部注入语义，或者通过在扩散过程中联合建模VFM特征的一小部分来内部注入语义，未能充分利用VFM中丰富的、非线性的、多层空间语义。我们提出了REGLUE（Representation Entanglement with Global-Local Unified Encoding），一个统一的潜在扩散框架，它在单个SiT骨干网络中联合建模(i)VAE图像潜在变量，(ii)紧凑的局部(patch级别)VFM语义，以及(iii)全局(图像级别)[CLS] token。一个轻量级的卷积语义压缩器将多层VFM特征非线性地聚合为低维、空间结构化的表示，并在扩散过程中与VAE潜在变量纠缠。外部对齐损失进一步将内部表示正则化到冻结的VFM目标。在ImageNet 256x256上，REGLUE始终优于SiT-B/2和SiT-XL/2基线，以及REPA、ReDi和REG，在FID方面有所改进并加速了收敛。大量实验表明，(a)空间VFM语义至关重要，(b)非线性压缩是充分利用其优势的关键，以及(c)全局token和外部对齐在我们全局-局部-潜在联合建模框架中充当互补的、轻量级的增强。

🔬 方法详解

问题定义：现有潜在扩散模型在图像合成任务中，由于其重建式的去噪目标，对语义信息的利用不足，导致训练过程缓慢，生成图像质量不高。现有方法要么外部对齐VFM特征，要么仅利用VFM特征的一小部分，无法充分利用VFM中蕴含的丰富的、非线性的、多层空间语义信息。

核心思路：REGLUE的核心思路是将VAE图像潜在变量、局部(patch级别)VFM语义和全局(图像级别)[CLS] token在扩散过程中进行联合建模和纠缠。通过这种方式，模型能够更有效地利用VFM提供的全局和局部语义信息，从而提升图像合成的质量和训练效率。

技术框架：REGLUE框架包含以下主要模块：1) VAE编码器：将输入图像编码为潜在变量。2) 视觉基础模型(VFM)：提取图像的多层语义特征。3) 语义压缩器：一个轻量级的卷积神经网络，用于将多层VFM特征非线性地聚合为低维、空间结构化的表示。4) SiT骨干网络：用于在扩散过程中联合建模VAE潜在变量、局部VFM语义和全局[CLS] token。5) 外部对齐损失：用于正则化内部表示，使其与冻结的VFM目标对齐。整体流程是，图像经过VAE编码，同时输入VFM提取语义特征，语义特征经过压缩后与VAE潜在变量以及全局token一起输入SiT网络进行扩散过程，并通过外部对齐损失进行正则化。

关键创新：REGLUE的关键创新在于：1) 提出了一个统一的框架，能够同时利用全局和局部的VFM语义信息。2) 使用非线性压缩器来聚合多层VFM特征，从而更有效地利用VFM的语义信息。3) 通过外部对齐损失来正则化内部表示，使其与VFM目标对齐。与现有方法相比，REGLUE能够更充分地利用VFM的语义信息，从而提升图像合成的质量和训练效率。

关键设计：语义压缩器采用轻量级的卷积神经网络结构，以降低计算成本。外部对齐损失采用L2损失，用于衡量内部表示与VFM目标之间的差异。全局[CLS] token的设计旨在捕捉图像的全局语义信息。SiT骨干网络的选择是因为其在图像建模方面的优异性能。具体的参数设置和网络结构细节可以在论文的补充材料中找到。

🖼️ 关键图片

📊 实验亮点

实验结果表明，REGLUE在ImageNet 256x256数据集上显著优于SiT-B/2和SiT-XL/2基线，以及REPA、ReDi和REG等现有方法。具体而言，REGLUE在FID指标上取得了显著提升，并且加速了模型的收敛速度。实验还证明了空间VFM语义的重要性，非线性压缩的关键作用，以及全局token和外部对齐的互补增强效果。这些结果表明，REGLUE能够更有效地利用VFM的语义信息，从而提升图像合成的质量和训练效率。

🎯 应用场景

REGLUE在图像生成、图像编辑、图像修复等领域具有广泛的应用前景。它可以用于生成高质量的图像，编辑现有图像的内容，以及修复损坏的图像。此外，REGLUE还可以应用于其他需要利用图像语义信息的任务，例如图像分类、目标检测等。该研究的实际价值在于提升图像生成模型的性能，并为相关应用提供更强大的技术支持。未来，REGLUE可以进一步扩展到视频生成、3D内容生成等领域。

📄 摘要（原文）

Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .

REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理