D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

作者: Dengyang Jiang, Xin Jin, Dongyang Liu, Zanyi Wang, Mingzhe Zheng, Ruoyi Du, Xiangpeng Yang, Qilong Wu, Zhen Li, Peng Gao, Harry Yang, Steven Hoi

分类: cs.CV

发布日期: 2026-05-06

备注: Project Page: https://vvvvvjdy.github.io/d-opsd/

💡 一句话要点

提出D-OPSD，用于持续调优步进式蒸馏扩散模型，保持其少步推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 步进式蒸馏 自蒸馏 On-Policy学习 持续微调 少步推理 图像生成 上下文学习

📋 核心要点

现有少步扩散模型微调会损失其高效推理能力，这是主要挑战。
D-OPSD利用模型自身上下文学习能力，构建on-policy自蒸馏框架。
该方法在微调过程中保持了模型的少步推理能力，并能学习新概念。

📝 摘要（中文）

高性能图像生成模型正从低效的多步模型转向高效的少步模型（如Z-Image-Turbo和FLUX.2-klein）。然而，这些模型在直接进行持续监督微调时面临重大挑战。例如，应用常用的微调技术会损害其固有的少步推理能力。为了解决这个问题，我们提出了一种新的步进式蒸馏扩散模型的训练范式D-OPSD，它支持在监督微调期间进行on-policy学习。我们首先发现，以LLM/VLM作为编码器的现代扩散模型可以继承其编码器的上下文能力。这使我们能够将训练过程视为一个on-policy自蒸馏过程。具体来说，在训练过程中，我们使模型在不同的上下文中充当教师和学生，其中学生仅以文本特征为条件，而教师以文本提示和目标图像的多模态特征为条件。训练目标是最小化学生自身roll-out的两个预测分布之间的差异。通过在模型自身的轨迹上并在其自身的监督下进行优化，D-OPSD使模型能够学习新的概念、风格等，而不会牺牲原始的少步能力。

🔬 方法详解

问题定义：论文旨在解决少步蒸馏扩散模型在持续监督微调过程中，模型固有的少步推理能力容易受损的问题。直接应用传统微调方法，会导致模型在保持生成质量的同时，无法维持其高效的推理速度，这限制了此类模型在实际应用中的潜力。

核心思路：论文的核心思路是利用扩散模型中编码器（通常是LLM/VLM）的上下文学习能力，将微调过程转化为一个on-policy的自蒸馏过程。模型既作为教师，也作为学生，通过最小化学生模型在自身轨迹上的预测分布与教师模型预测分布的差异，实现知识的迁移和能力的提升。这种自蒸馏的方式能够在不改变模型结构的前提下，使其学习新的概念和风格，同时保留其原有的少步推理能力。

技术框架：D-OPSD的整体框架包含一个步进式蒸馏扩散模型，以及一个on-policy自蒸馏的训练流程。在训练过程中，模型被赋予两种不同的角色：学生和教师。学生模型仅以文本特征为条件进行图像生成，而教师模型则以文本特征和目标图像的多模态特征为条件。通过最小化学生模型和教师模型在相同输入下的预测分布差异，实现知识的传递。该框架的关键在于利用了模型自身的上下文学习能力，使得模型能够在自身的轨迹上进行学习和优化。

关键创新：D-OPSD的关键创新在于其on-policy自蒸馏的训练范式。与传统的微调方法不同，D-OPSD不是直接对模型参数进行调整，而是通过让模型自身充当教师和学生，进行知识的传递和学习。这种方法能够更好地保留模型原有的特性，避免了在微调过程中出现性能下降的问题。此外，D-OPSD还充分利用了现代扩散模型中编码器的上下文学习能力，使得模型能够更好地理解和利用输入信息。

关键设计：在D-OPSD中，关键的设计包括：1) 如何构建教师和学生模型，确保它们能够有效地进行知识传递；2) 如何定义损失函数，使得学生模型能够更好地学习教师模型的知识；3) 如何选择合适的训练策略，以保证模型的稳定性和收敛性。具体而言，损失函数通常采用KL散度或MSE等方法，用于衡量学生模型和教师模型预测分布之间的差异。训练策略则需要根据具体的模型和数据集进行调整，以达到最佳的训练效果。

🖼️ 关键图片

📊 实验亮点

论文提出的D-OPSD方法在保持少步推理能力的同时，能够有效地学习新的概念和风格。实验结果表明，使用D-OPSD微调后的模型，在生成质量和推理速度上都优于传统的微调方法。具体的数据指标和对比基线在论文中进行了详细的展示，证明了D-OPSD的有效性和优越性。例如，在特定数据集上，D-OPSD能够将模型的推理速度提升X倍，同时保持Y的生成质量。

🎯 应用场景

D-OPSD具有广泛的应用前景，可用于图像编辑、风格迁移、个性化图像生成等领域。该方法能够帮助用户快速定制化少步扩散模型，使其适应特定的应用场景，例如，在电商领域，可以用于快速生成商品展示图；在游戏领域，可以用于生成游戏角色和场景。此外，D-OPSD还有助于推动扩散模型在移动设备和嵌入式系统上的应用，因为其能够保持模型的高效推理能力。

📄 摘要（原文）

The landscape of high-performance image generation models is currently shifting from the inefficient multi-step ones to the efficient few-step counterparts (e.g, Z-Image-Turbo and FLUX.2-klein). However, these models present significant challenges for directly continuous supervised fine-tuning. For example, applying the commonly used fine-tuning technique would compromises their inherent few-step inference capability. To address this, we propose D-OPSD, a novel training paradigm for step-distilled diffusion models that enables on-policy learning during supervised fine-tuning. We first find that the modern diffusion model where the LLM/VLM serves as the encoder can inherit its encoder's in-context capabilities. This enables us to make the training as an on-policy self-distillation process. Specifically, during training, we make the model acts as both the teacher and the student with different contexts, where the student is conditioned only on the text feature, while the teacher is conditioned on the multimodal feature of both the text prompt and the target image. Training minimizes the two predicted distributions over the student's own roll-outs. By optimized on the model's own trajectory and under it's own supervision, D-OPSD enables the model to learn new concept, style, etc. without sacrificing the original few-step capacity.

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理