Guiding a Diffusion Model by Swapping Its Tokens

作者: Weijia Zhang, Yuehao Liu, Shanyan Guan, Wu Ran, Yanhao Ge, Wei Li, Chao Ma

分类: cs.CV

发布日期: 2026-04-09

备注: Accepted by CVPR 2026 (Oral)

💡 一句话要点

提出Self-Swap Guidance，通过token交换引导扩散模型，提升图像质量和提示对齐性。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 扩散模型 无条件生成 图像质量提升 token交换 自引导 Classifier-Free Guidance 图像生成 提示对齐

📋 核心要点

Classifier-Free Guidance (CFG)依赖文本条件，无法用于无条件生成，限制了其应用范围。
提出Self-Swap Guidance (SSG)，通过交换token latent生成扰动，引导扩散模型生成更高质量的图像。
实验表明，SSG在图像质量和提示对齐方面优于现有无条件方法，并提高了模型的鲁棒性。

📝 摘要（中文）

本文提出了一种简单的方法，为条件和无条件生成提供类似Classifier-Free Guidance (CFG)的引导。核心思想是通过简单的token交换操作生成扰动预测，并利用其与干净预测之间的方向来引导采样，从而获得更高质量的图像。具体而言，我们在空间或通道维度上交换语义最不相似的token latent对。与全局或约束较少的扰动方法不同，我们的方法选择性地交换和重组token latent，从而可以更精细地控制扰动及其对生成样本的影响。在MS-COCO 2014、MS-COCO 2017和ImageNet数据集上的实验表明，所提出的Self-Swap Guidance (SSG)应用于流行的扩散模型时，在不同的设置下，图像质量和提示对齐方面优于先前的无条件方法。其细粒度的扰动粒度还提高了鲁棒性，减少了更广泛的扰动强度下的副作用。总而言之，SSG将CFG扩展到更广泛的应用范围，包括条件和无条件生成，并且可以作为插件轻松插入到任何扩散模型中，以立即获得改进。

🔬 方法详解

问题定义：现有的Classifier-Free Guidance (CFG)方法依赖于文本条件，因此无法直接应用于无条件图像生成任务。现有的无条件引导方法通常采用全局或约束较少的扰动方式，难以实现对生成图像的精细控制，并且可能引入不必要的副作用。

核心思路：本文的核心思路是通过在扩散模型的中间层进行token交换，生成一个扰动后的预测结果。然后，利用原始预测结果和扰动后预测结果之间的差异，来引导扩散模型的采样过程，使其朝着更高质量、更符合预期的方向发展。这种方法的核心在于通过可控的扰动来影响生成过程。

技术框架：SSG方法主要包含以下几个步骤：1) 使用扩散模型进行初步预测，得到中间层的token latent表示；2) 计算token latent之间的语义相似度，选择语义最不相似的token对；3) 交换选定的token latent对，生成扰动后的token latent表示；4) 使用扰动后的token latent表示进行反向扩散，得到扰动后的图像预测；5) 利用原始预测和扰动后预测的差异，引导扩散模型的采样过程。

关键创新：SSG的关键创新在于其细粒度的扰动方式。通过选择性地交换语义最不相似的token latent，SSG能够更精确地控制扰动的影响范围，避免引入不必要的副作用。与全局扰动或随机扰动相比，SSG能够更好地平衡图像质量和多样性。

关键设计：SSG的关键设计包括：1) 语义相似度的计算方法，可以使用余弦相似度或其他度量方式；2) token交换的维度，可以选择在空间维度或通道维度进行交换；3) 扰动强度的控制，可以通过调整交换的token数量或交换的比例来实现；4) 引导强度的控制，可以通过调整原始预测和扰动后预测的权重来实现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Self-Swap Guidance (SSG) 在 MS-COCO 和 ImageNet 数据集上优于现有的无条件引导方法。例如，在 MS-COCO 数据集上，SSG 显著提升了生成图像的 Inception Score (IS) 和 Fréchet Inception Distance (FID)，同时提高了提示对齐性。此外，SSG 在更广泛的扰动强度下表现出更强的鲁棒性，减少了副作用。

🎯 应用场景

Self-Swap Guidance (SSG) 可应用于各种图像生成任务，包括无条件图像生成、图像编辑、风格迁移等。它能够提升生成图像的质量、多样性和与用户意图的对齐性。该方法作为插件，可以方便地集成到现有的扩散模型中，具有广泛的应用前景。

📄 摘要（原文）

Classifier-Free Guidance (CFG) is a widely used inference-time technique to boost the image quality of diffusion models. Yet, its reliance on text conditions prevents its use in unconditional generation. We propose a simple method to enable CFG-like guidance for both conditional and unconditional generation. The key idea is to generate a perturbed prediction via simple token swap operations, and use the direction between it and the clean prediction to steer sampling towards higher-fidelity distributions. In practice, we swap pairs of most semantically dissimilar token latents in either spatial or channel dimensions. Unlike existing methods that apply perturbation in a global or less constrained manner, our approach selectively exchanges and recomposes token latents, allowing finer control over perturbation and its influence on generated samples. Experiments on MS-COCO 2014, MS-COCO 2017, and ImageNet datasets demonstrate that the proposed Self-Swap Guidance (SSG), when applied to popular diffusion models, outperforms previous condition-free methods in image fidelity and prompt alignment under different set-ups. Its fine-grained perturbation granularity also improves robustness, reducing side-effects across a wider range of perturbation strengths. Overall, SSG extends CFG to a broader scope of applications including both conditional and unconditional generation, and can be readily inserted into any diffusion model as a plug-in to gain immediate improvements.

Guiding a Diffusion Model by Swapping Its Tokens

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理