Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

📄 arXiv: 2502.12146v1 📥 PDF

作者: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui

分类: cs.CV

发布日期: 2025-02-17

备注: Code: https://github.com/Gen-Verse/Diffusion-Sharpening

🔗 代码/项目: GITHUB


💡 一句话要点

Diffusion-Sharpening:通过去噪轨迹锐化微调扩散模型,提升下游任务对齐。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 微调 采样轨迹优化 路径积分 文本对齐

📋 核心要点

  1. 现有基于强化学习的扩散模型微调方法通常关注单个时间步的优化,忽略了整个采样轨迹的对齐,导致性能瓶颈。
  2. Diffusion-Sharpening通过路径积分框架选择最优采样轨迹,并利用奖励反馈进行训练,从而实现轨迹层面的优化。
  3. 实验结果表明,Diffusion-Sharpening在训练和推理效率上均优于现有方法,并在文本对齐、组合能力等方面取得了显著提升。

📝 摘要(中文)

本文提出了一种名为Diffusion-Sharpening的微调方法,通过优化采样轨迹来增强下游任务的对齐效果。现有的基于强化学习的微调方法侧重于单个训练时间步,忽略了轨迹层面的对齐,而最近的采样轨迹优化方法会显著增加推理时的NFE(Number of Function Evaluations)成本。Diffusion-Sharpening通过使用路径积分框架在训练期间选择最佳轨迹,利用奖励反馈,并分摊推理成本来克服这些问题。我们的方法展示了卓越的训练效率,收敛速度更快,并且具有最佳的推理效率,无需额外的NFE。大量实验表明,Diffusion-Sharpening在包括文本对齐、组合能力和人类偏好在内的各种指标上优于基于强化学习的微调方法(例如,Diffusion-DPO)和采样轨迹优化方法(例如,Inference Scaling),为未来的扩散模型微调提供了一种可扩展且高效的解决方案。

🔬 方法详解

问题定义:现有的扩散模型微调方法,如基于强化学习的方法(例如Diffusion-DPO),主要关注单个去噪步骤的优化,忽略了整个采样轨迹的连贯性和全局优化。而一些采样轨迹优化方法(例如Inference Scaling)虽然考虑了轨迹优化,但通常需要在推理阶段增加额外的计算量(NFE),导致推理效率降低。因此,如何高效地进行扩散模型的微调,同时兼顾训练效率和推理效率,是一个重要的挑战。

核心思路:Diffusion-Sharpening的核心思路是通过优化扩散模型的采样轨迹,使其更好地与下游任务对齐。具体来说,该方法利用路径积分框架,在训练过程中选择最优的采样轨迹,并利用奖励反馈来指导轨迹的优化方向。通过这种方式,Diffusion-Sharpening能够在不增加推理阶段计算量的前提下,提升模型的性能。

技术框架:Diffusion-Sharpening的整体框架包括以下几个主要步骤:1) 使用扩散模型生成初始的采样轨迹;2) 使用奖励函数评估采样轨迹的质量;3) 使用路径积分框架选择最优的采样轨迹;4) 使用选择的最优轨迹来微调扩散模型。该框架的关键在于路径积分框架的使用,它允许在训练过程中高效地搜索最优的采样轨迹。

关键创新:Diffusion-Sharpening的关键创新在于将路径积分框架引入到扩散模型的微调中。与传统的基于强化学习的方法相比,Diffusion-Sharpening能够更好地利用整个采样轨迹的信息,从而实现更有效的优化。此外,Diffusion-Sharpening通过在训练阶段进行轨迹选择,避免了在推理阶段增加额外的计算量,从而保证了推理效率。

关键设计:Diffusion-Sharpening的关键设计包括:1) 奖励函数的设计,用于评估采样轨迹的质量。奖励函数需要与下游任务相关,例如,对于文本生成任务,可以使用文本对齐度作为奖励;2) 路径积分框架的具体实现,包括如何选择最优的采样轨迹,以及如何利用选择的轨迹来更新扩散模型。具体实现细节未知,需要参考论文代码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Diffusion-Sharpening在多个实验中表现出色,超越了Diffusion-DPO和Inference Scaling等基线方法。在文本对齐、组合能力和人类偏好等指标上均取得了显著提升。尤其值得一提的是,Diffusion-Sharpening在提升性能的同时,没有增加推理阶段的计算量,保证了推理效率。具体性能提升数据未知,需要参考论文实验部分。

🎯 应用场景

Diffusion-Sharpening具有广泛的应用前景,可以应用于各种扩散模型的微调任务,例如文本生成、图像生成、音频生成等。该方法可以用于提升生成模型的质量、对齐度和可控性,从而满足不同应用场景的需求。例如,可以用于生成更符合用户意图的文本描述,或者生成更逼真、更具有艺术性的图像作品。该方法在内容创作、人机交互等领域具有重要的应用价值。

📄 摘要(原文)

We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening