Guiding a Diffusion Model by Swapping Its Tokens
作者: Weijia Zhang, Yuehao Liu, Shanyan Guan, Wu Ran, Yanhao Ge, Wei Li, Chao Ma
分类: cs.CV
发布日期: 2026-04-09
备注: Accepted by CVPR 2026 (Oral)
💡 一句话要点
提出Self-Swap Guidance,通过token交换引导扩散模型,提升图像质量和提示对齐性。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 扩散模型 无条件生成 图像质量提升 token交换 自引导 Classifier-Free Guidance 图像生成 提示对齐
📋 核心要点
- Classifier-Free Guidance (CFG)依赖文本条件,无法用于无条件生成,限制了其应用范围。
- 提出Self-Swap Guidance (SSG),通过交换token latent生成扰动,引导扩散模型生成更高质量的图像。
- 实验表明,SSG在图像质量和提示对齐方面优于现有无条件方法,并提高了模型的鲁棒性。
📝 摘要(中文)
本文提出了一种简单的方法,为条件和无条件生成提供类似Classifier-Free Guidance (CFG)的引导。核心思想是通过简单的token交换操作生成扰动预测,并利用其与干净预测之间的方向来引导采样,从而获得更高质量的图像。具体而言,我们在空间或通道维度上交换语义最不相似的token latent对。与全局或约束较少的扰动方法不同,我们的方法选择性地交换和重组token latent,从而可以更精细地控制扰动及其对生成样本的影响。在MS-COCO 2014、MS-COCO 2017和ImageNet数据集上的实验表明,所提出的Self-Swap Guidance (SSG)应用于流行的扩散模型时,在不同的设置下,图像质量和提示对齐方面优于先前的无条件方法。其细粒度的扰动粒度还提高了鲁棒性,减少了更广泛的扰动强度下的副作用。总而言之,SSG将CFG扩展到更广泛的应用范围,包括条件和无条件生成,并且可以作为插件轻松插入到任何扩散模型中,以立即获得改进。
🔬 方法详解
问题定义:现有的Classifier-Free Guidance (CFG)方法依赖于文本条件,因此无法直接应用于无条件图像生成任务。现有的无条件引导方法通常采用全局或约束较少的扰动方式,难以实现对生成图像的精细控制,并且可能引入不必要的副作用。
核心思路:本文的核心思路是通过在扩散模型的中间层进行token交换,生成一个扰动后的预测结果。然后,利用原始预测结果和扰动后预测结果之间的差异,来引导扩散模型的采样过程,使其朝着更高质量、更符合预期的方向发展。这种方法的核心在于通过可控的扰动来影响生成过程。
技术框架:SSG方法主要包含以下几个步骤:1) 使用扩散模型进行初步预测,得到中间层的token latent表示;2) 计算token latent之间的语义相似度,选择语义最不相似的token对;3) 交换选定的token latent对,生成扰动后的token latent表示;4) 使用扰动后的token latent表示进行反向扩散,得到扰动后的图像预测;5) 利用原始预测和扰动后预测的差异,引导扩散模型的采样过程。
关键创新:SSG的关键创新在于其细粒度的扰动方式。通过选择性地交换语义最不相似的token latent,SSG能够更精确地控制扰动的影响范围,避免引入不必要的副作用。与全局扰动或随机扰动相比,SSG能够更好地平衡图像质量和多样性。
关键设计:SSG的关键设计包括:1) 语义相似度的计算方法,可以使用余弦相似度或其他度量方式;2) token交换的维度,可以选择在空间维度或通道维度进行交换;3) 扰动强度的控制,可以通过调整交换的token数量或交换的比例来实现;4) 引导强度的控制,可以通过调整原始预测和扰动后预测的权重来实现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Self-Swap Guidance (SSG) 在 MS-COCO 和 ImageNet 数据集上优于现有的无条件引导方法。例如,在 MS-COCO 数据集上,SSG 显著提升了生成图像的 Inception Score (IS) 和 Fréchet Inception Distance (FID),同时提高了提示对齐性。此外,SSG 在更广泛的扰动强度下表现出更强的鲁棒性,减少了副作用。
🎯 应用场景
Self-Swap Guidance (SSG) 可应用于各种图像生成任务,包括无条件图像生成、图像编辑、风格迁移等。它能够提升生成图像的质量、多样性和与用户意图的对齐性。该方法作为插件,可以方便地集成到现有的扩散模型中,具有广泛的应用前景。
📄 摘要(原文)
Classifier-Free Guidance (CFG) is a widely used inference-time technique to boost the image quality of diffusion models. Yet, its reliance on text conditions prevents its use in unconditional generation. We propose a simple method to enable CFG-like guidance for both conditional and unconditional generation. The key idea is to generate a perturbed prediction via simple token swap operations, and use the direction between it and the clean prediction to steer sampling towards higher-fidelity distributions. In practice, we swap pairs of most semantically dissimilar token latents in either spatial or channel dimensions. Unlike existing methods that apply perturbation in a global or less constrained manner, our approach selectively exchanges and recomposes token latents, allowing finer control over perturbation and its influence on generated samples. Experiments on MS-COCO 2014, MS-COCO 2017, and ImageNet datasets demonstrate that the proposed Self-Swap Guidance (SSG), when applied to popular diffusion models, outperforms previous condition-free methods in image fidelity and prompt alignment under different set-ups. Its fine-grained perturbation granularity also improves robustness, reducing side-effects across a wider range of perturbation strengths. Overall, SSG extends CFG to a broader scope of applications including both conditional and unconditional generation, and can be readily inserted into any diffusion model as a plug-in to gain immediate improvements.