JLT: Clean-Latent Prediction in Latent Diffusion Transformers
作者: Funing Fu, Tenghui Wang, Junyong Cen, Qichao Zhu, Guanyu Zhou
分类: cs.CV, cs.LG
发布日期: 2026-05-26
💡 一句话要点
JLT:在潜在扩散Transformer中通过Clean-Latent预测提升图像生成质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 潜在扩散模型 图像生成 Transformer Clean-Latent预测 Flow Matching
📋 核心要点
- 现有Flow matching方法通过预测clean数据点来利用低维结构,但其在潜在空间中的有效性尚不明确。
- 论文提出JLT模型,通过在潜在扩散Transformer中使用clean-latent预测,探索更有效的图像生成目标。
- 实验表明,JLT在ImageNet 256x256上取得了显著的FID提升,验证了clean-latent预测的优越性。
📝 摘要(中文)
本文研究了在潜在扩散模型中,使用clean-data预测是否比预测噪声更有效。作者提出了JLT,一个基于FLUX.2 VAE编码的1.3亿参数潜在扩散Transformer。通过比较clean-latent预测和velocity-prediction DiT在相同表征、骨干网络和训练设置下的性能,发现虽然变量x、epsilon和v在固定噪声水平下可以线性转换,但velocity回归会引入各向同性的目标协方差底,并放大低方差的潜在方向,而clean预测则会抑制它们。在ImageNet 256 x 256数据集上,JLT-B/1使用无分类器指导获得了FID-50K 2.50的优异成绩,显著优于velocity预测。结果表明,潜在扩散中的预测目标是依赖于表征的几何选择,而不是可互换的代数参数化。
🔬 方法详解
问题定义:现有基于Flow Matching的方法,通过预测clean数据点来利用数据的低维结构。然而,当图像被映射到学习到的潜在空间后,压缩已经移除了大量的原始像素变异性,此时预测clean数据点是否仍然有效是一个问题。现有的velocity预测方法可能存在目标协方差底和放大低方差潜在方向的问题。
核心思路:论文的核心思路是探索在潜在扩散模型中,使用clean-latent预测是否比预测噪声或velocity更有效。作者认为,在潜在空间中,不同的预测目标(clean数据点、噪声、velocity)实际上对应于不同的几何选择,这些选择会影响模型的学习效率和生成质量。通过比较clean-latent预测和velocity预测,揭示了潜在空间中预测目标的选择对模型性能的影响。
技术框架:JLT模型基于潜在扩散Transformer架构,使用FLUX.2 VAE将图像编码到潜在空间。该模型包含一个Transformer骨干网络,用于学习潜在空间中的扩散过程。训练过程包括前向扩散过程(向潜在编码添加噪声)和反向扩散过程(从噪声中恢复潜在编码)。模型使用clean-latent预测作为目标,即预测未加噪的潜在编码。
关键创新:论文的关键创新在于提出了在潜在扩散Transformer中使用clean-latent预测,并证明了其优于velocity预测。作者通过理论分析和实验验证,揭示了不同预测目标在潜在空间中的几何意义,以及它们对模型性能的影响。此外,论文还提出了JLT模型,一个基于FLUX.2 VAE编码的1.3亿参数潜在扩散Transformer。
关键设计:JLT模型使用了一个1.3亿参数的Transformer骨干网络。训练过程中,作者采用了无分类器指导(classifier-free guidance)来提高生成质量。损失函数基于clean-latent预测,即最小化模型预测的clean潜在编码与真实clean潜在编码之间的差异。模型在ImageNet 256 x 256数据集上进行训练和评估。
🖼️ 关键图片
📊 实验亮点
JLT模型在ImageNet 256 x 256数据集上取得了显著的性能提升。JLT-B/1使用无分类器指导获得了FID-50K 2.50的优异成绩,显著优于使用velocity预测的DiT模型。这一结果表明,在潜在扩散模型中,clean-latent预测是一种更有效的学习目标。
🎯 应用场景
该研究成果可应用于图像生成、图像编辑、图像修复等领域。通过选择合适的预测目标,可以提高潜在扩散模型的生成质量和效率。该研究对于理解潜在扩散模型的内部机制和优化模型设计具有重要意义,并可能推动相关技术在艺术创作、内容生成等领域的应用。
📄 摘要(原文)
Flow matching with clean-data prediction has shown that regressing the clean point can exploit low-dimensional structure more effectively than predicting an ambient noised quantity. We ask whether this principle remains useful after images are mapped into a learned latent space, where compression has already removed much of the raw pixel variability. We introduce JLT, a 130M latent diffusion Transformer over frozen FLUX.2 VAE codes, and compare clean-latent prediction with a matched velocity-prediction DiT under the same representation, backbone, and training settings. Although the three variables x, epsilon, and v are linearly convertible for a fixed corruption time, a local Gaussian analysis shows that velocity regression inherits an isotropic target-covariance floor and amplifies low-variance latent directions, while clean prediction damps them. On ImageNet 256 x 256, JLT-B/1 obtains FID-50K 2.50 with classifier-free guidance, with a large matched-target gap over velocity prediction. These results suggest that prediction targets in latent diffusion are representation-dependent geometric choices, rather than interchangeable algebraic parameterizations.