Discriminator-Free Direct Preference Optimization for Video Diffusion

📄 arXiv: 2504.08542v1 📥 PDF

作者: Haoran Cheng, Qide Dong, Liang Peng, Zhizhou Sha, Weiguo Feng, Jinghui Xie, Zhao Song, Shilei Wen, Xiaofei He, Boxi Wu

分类: cs.CV

发布日期: 2025-04-11

备注: arXiv admin note: text overlap with arXiv:2412.14167 by other authors


💡 一句话要点

提出一种无判别器的视频扩散直接偏好优化方法,解决视频生成中的数据低效和评估不确定性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频扩散模型 直接偏好优化 无判别器训练 视频生成 数据效率

📋 核心要点

  1. 视频扩散模型应用DPO面临数据效率低下的问题,每次迭代需要生成大量视频,成本高昂。
  2. 该论文提出一种无判别器的视频DPO框架,利用真实视频及其编辑版本构建胜/负数据对,避免了合成视频的比较。
  3. 实验表明,该方法在CogVideoX上表现出高效性,能够有效区分和避免编辑引入的伪影。

📝 摘要(中文)

直接偏好优化(DPO)通过胜/负数据对齐模型与人类偏好,在语言和图像生成中取得了显著成功。然而,将DPO应用于视频扩散模型面临严峻挑战:(1)数据低效,每次DPO迭代生成数千个视频的成本过高;(2)评估不确定性,人类标注存在主观偏差,自动判别器无法检测到细微的时间伪影,如闪烁或运动不连贯。为了解决这些问题,我们提出了一种无判别器的视频DPO框架,该框架:(1)使用原始真实视频作为胜例,并使用其编辑版本(例如,反转、打乱或噪声破坏的片段)作为负例;(2)训练视频扩散模型来区分和避免编辑引入的伪影。这种方法消除了对昂贵的合成视频比较的需求,提供了明确的质量信号,并通过简单的编辑操作实现了无限的训练数据扩展。我们从理论上证明了即使真实视频和模型生成的视频遵循不同的分布,该框架也是有效的。在CogVideoX上的实验证明了该方法的效率。

🔬 方法详解

问题定义:视频扩散模型在应用直接偏好优化(DPO)时,面临两个主要问题。一是数据效率低下,因为每次DPO迭代都需要生成大量的视频样本进行训练,计算成本非常高昂。二是评估标准不明确,依赖人工标注容易引入主观偏差,而自动判别器难以捕捉视频中细微的时间伪影,如闪烁或运动不连贯等问题。

核心思路:该论文的核心思路是利用真实视频及其编辑版本(如反转、打乱、添加噪声等)来构建DPO训练所需的胜/负数据对。具体来说,将原始的真实视频视为“胜例”,而将经过编辑处理后的视频视为“负例”。通过这种方式,模型被训练来区分真实视频和包含伪影的编辑视频,从而学习到高质量的视频生成能力。这种方法避免了生成大量合成视频进行比较,显著提高了数据效率。

技术框架:该框架主要包含两个部分:数据生成和模型训练。数据生成阶段,首先收集真实的视频数据,然后对这些视频进行各种编辑操作,生成对应的负例数据。模型训练阶段,使用DPO算法,以真实视频作为胜例,编辑视频作为负例,训练视频扩散模型。整个过程无需额外的判别器网络。

关键创新:该方法最重要的创新点在于提出了无判别器的DPO训练框架,避免了对合成视频的依赖,转而利用真实视频及其编辑版本作为训练数据。这不仅提高了数据效率,还避免了判别器训练可能引入的问题。与现有方法相比,该方法能够更有效地利用真实数据中的信息,从而提升视频生成质量。

关键设计:关键设计包括:1) 编辑操作的选择:论文中使用了多种编辑操作,如视频反转、帧打乱、添加噪声等,以引入不同类型的伪影。2) DPO损失函数:使用标准的DPO损失函数,鼓励模型生成更接近真实视频的样本,同时避免生成包含伪影的样本。3) 模型架构:可以使用现有的视频扩散模型架构,如U-Net等。具体的参数设置和网络结构细节可能需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文提出的无判别器视频DPO框架在CogVideoX数据集上进行了实验验证,结果表明该方法能够有效地区分真实视频和包含伪影的编辑视频,从而提升视频生成质量。具体性能数据和对比基线未在摘要中明确给出,但论文强调了该方法在数据效率方面的优势。

🎯 应用场景

该研究成果可广泛应用于视频生成、视频编辑、视频修复等领域。例如,可以用于生成高质量的电影片段、游戏动画,也可以用于修复老旧视频或去除视频中的噪声和伪影。此外,该方法还可以应用于视频内容创作平台,帮助用户更轻松地生成高质量的视频内容。未来,该技术有望推动视频生成和编辑技术的进一步发展。

📄 摘要(原文)

Direct Preference Optimization (DPO), which aligns models with human preferences through win/lose data pairs, has achieved remarkable success in language and image generation. However, applying DPO to video diffusion models faces critical challenges: (1) Data inefficiency. Generating thousands of videos per DPO iteration incurs prohibitive costs; (2) Evaluation uncertainty. Human annotations suffer from subjective bias, and automated discriminators fail to detect subtle temporal artifacts like flickering or motion incoherence. To address these, we propose a discriminator-free video DPO framework that: (1) Uses original real videos as win cases and their edited versions (e.g., reversed, shuffled, or noise-corrupted clips) as lose cases; (2) Trains video diffusion models to distinguish and avoid artifacts introduced by editing. This approach eliminates the need for costly synthetic video comparisons, provides unambiguous quality signals, and enables unlimited training data expansion through simple editing operations. We theoretically prove the framework's effectiveness even when real videos and model-generated videos follow different distributions. Experiments on CogVideoX demonstrate the efficiency of the proposed method.