Diffusion-APO: Trajectory-Aware Direct Preference Alignment for Video Diffusion Transformers

📄 arXiv: 2605.07503v1 📥 PDF

作者: Jingyuan Zhu, Biaolong Chen, Le Zhang, Aixi Zhang, Hao Jiang, Pipei Huang

分类: cs.CV

发布日期: 2026-05-08


💡 一句话要点

提出Diffusion-APO算法,通过轨迹感知直接偏好对齐优化视频扩散模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频扩散模型 偏好对齐 轨迹感知 强化学习人类反馈 模型蒸馏 生成式人工智能

📋 核心要点

  1. 现有方法如DPO和GRPO在视频扩散模型对齐中,常受限于奖励模型偏差或时间步采样不当,导致训练与推理轨迹存在显著失配。
  2. 提出Diffusion-APO算法,通过同步训练噪声与推理去噪路径,并构建包含在线排序、锚定及漂移校正的模块化RLHF框架,实现高效对齐。
  3. 实验证明该方法在视觉质量和指令遵循能力上显著优于基线,同时在模型加速场景下保持了极高的生成保真度。

📝 摘要(中文)

高效地将大规模视频扩散模型与人类意图对齐,需要一条可扩展且具备轨迹感知能力的路径,以弥合训练噪声分布与实际推理轨迹之间的固有差异。尽管现有的直接偏好优化(DPO)和组相对策略优化(GRPO)等范式试图解决这一问题,但它们往往受限于对易产生偏差的复杂奖励模型的依赖,或存在时间步采样次优的问题。本文提出了Diffusion-APO(对齐偏好优化),这是一种轨迹感知算法,通过同步训练噪声与推理阶段的去噪路径,最大化梯度信号的有效性。为了将该算法转化为实用方案,我们引入了一个统一且模块化的RLHF框架,集成了在线排序、半在线锚定、离线精炼及感知蒸馏的漂移校正。该框架支持在不同数据和计算约束下进行灵活的多阶段偏好对齐,且无需依赖基于标量奖励的策略梯度。大量实验表明,Diffusion-APO在视觉质量和指令遵循方面均优于标准基线,并在模型加速过程中有效保持了生成保真度,为可扩展的视频扩散对齐提供了稳健的端到端路径。

🔬 方法详解

问题定义:视频扩散模型在训练阶段的噪声分布与推理阶段的去噪轨迹存在本质差异,导致模型在对齐人类偏好时,难以通过简单的DPO或GRPO实现最优的梯度信号传递,且现有的奖励模型往往引入不必要的偏差。

核心思路:核心在于“轨迹感知”,即通过强制训练过程中的噪声采样与推理时的去噪路径保持一致,从而确保模型在优化过程中能够直接针对实际生成的轨迹进行偏好对齐,最大化梯度信号的有效性。

技术框架:该框架由四个核心模块组成:在线排序(Online Ranking)用于实时获取偏好反馈;半在线锚定(Half-online Anchoring)用于稳定训练;离线精炼(Offline Refinement)用于提升数据利用率;以及蒸馏感知漂移校正(Distillation-aware Drift Correction)用于在模型压缩或加速过程中维持性能。

关键创新:与传统依赖标量奖励函数的方法不同,Diffusion-APO通过轨迹同步机制消除了对复杂奖励模型的强依赖,实现了端到端的偏好对齐,显著降低了训练的不稳定性。

关键设计:算法引入了针对扩散过程的时间步加权机制,通过动态调整训练噪声分布以匹配推理轨迹,并利用漂移校正技术确保在多阶段对齐过程中,模型参数不会偏离预期的生成分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Diffusion-APO在视觉保真度指标上超越了主流的DPO基线,特别是在复杂动作指令的遵循准确率上提升显著。在模型加速实验中,该方法在保持生成质量的同时,有效缓解了传统对齐方法常见的性能退化问题,展现了极强的鲁棒性。

🎯 应用场景

该技术广泛适用于文生视频(Text-to-Video)模型的微调,特别是在需要高指令遵循度和高质量视觉输出的商业化视频生成平台中。此外,其模块化框架为模型压缩与推理加速提供了稳健的对齐方案,对资源受限的边缘设备部署具有重要价值。

📄 摘要(原文)

Efficiently aligning large-scale video diffusion models with human intent requires a scalable and trajectory-aware pathway that bridges the inherent discrepancy between training noise distributions and practical inference trajectories. While existing paradigms such as Direct Preference Optimization (DPO) and Group Relative Policy Optimization (GRPO) attempt to address this, they are often hindered by either reliance on bias-prone, complex reward models or suboptimal timestep sampling. In this paper, we propose Diffusion-APO (Aligned Preference Optimization), a trajectory-aware algorithm that resolves this misalignment by synchronizing training noise with inference-time denoising paths to maximize gradient signal efficacy. To translate this algorithmic innovation into a practical solution, we introduce a unified and modular RLHF framework that integrates online ranking, half-online anchoring, offline refinement, and distillation-aware drift correction. This framework enables flexible, multi-stage preference alignment across diverse data and computational constraints without relying on scalar-reward-based policy gradients. Through extensive experiments, we demonstrate that Diffusion-APO consistently outperforms standard baselines in visual quality and instruction following, while effectively preserving generative fidelity during model acceleration, providing a robust, end-to-end pathway for scalable video diffusion alignment.