Mind the Generative Details: Direct Localized Detail Preference Optimization for Video Diffusion Models
作者: Zitong Huang, Kaidong Zhang, Yukang Ding, Chao Gao, Rui Ding, Ying Chen, Wangmeng Zuo
分类: cs.CV, cs.AI
发布日期: 2026-01-07
备注: Under Review
💡 一句话要点
提出LocalDPO,通过局部细节偏好优化提升视频扩散模型生成质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频扩散模型 偏好优化 局部细节 时空区域 后训练
📋 核心要点
- 现有DPO方法依赖多样本排序和critic模型,效率低且全局监督模糊,难以有效对齐视频扩散模型。
- LocalDPO从真实视频构建局部偏好对,通过时空区域级的偏好学习,实现更精细的对齐。
- 实验表明,LocalDPO在视频保真度、时间连贯性和人类偏好得分上均优于其他后训练方法。
📝 摘要(中文)
为了生成高质量视频,将文本到视频扩散模型与人类偏好对齐至关重要。现有的直接偏好优化(DPO)方法依赖于多样本排序和特定任务的critic模型,效率低下且常常产生模糊的全局监督。为了解决这些限制,我们提出了LocalDPO,一种新颖的后训练框架,它从真实视频中构建局部偏好对,并在时空区域级别优化对齐。我们设计了一个自动化的流程来高效收集偏好对数据,该流程每次提示仅需一次推理即可生成偏好对,无需外部critic模型或手动标注。具体来说,我们将高质量的真实视频视为正样本,并通过使用随机时空掩码局部破坏它们,并仅使用冻结的基础模型恢复掩码区域来生成相应的负样本。在训练期间,我们引入了一个区域感知的DPO损失,该损失将偏好学习限制在已破坏的区域,以实现快速收敛。在Wan2.1和CogVideoX上的实验表明,LocalDPO始终优于其他后训练方法,提高了视频保真度、时间连贯性和人类偏好得分,从而为视频生成器对齐建立了一种更有效和细粒度的范例。
🔬 方法详解
问题定义:现有文本到视频扩散模型的直接偏好优化(DPO)方法,依赖于多样本排序和任务特定的critic模型,导致训练效率低下,并且产生的全局监督信号较为模糊,难以精确地指导模型生成高质量的视频内容。这些方法无法有效地捕捉视频中局部细节的偏好信息,限制了生成视频的真实感和用户满意度。
核心思路:LocalDPO的核心思路是利用真实视频作为高质量的先验知识,通过局部扰动生成负样本,并设计区域感知的DPO损失函数,从而在时空区域级别进行偏好学习。这种方法避免了对外部critic模型的依赖,并且能够更精确地对齐模型与人类对局部细节的偏好,从而提升生成视频的质量。
技术框架:LocalDPO是一个后训练框架,主要包含以下几个阶段:1) 偏好对数据生成:使用高质量的真实视频作为正样本,通过随机时空掩码对视频进行局部破坏,并使用冻结的基础扩散模型恢复被掩盖的区域,生成对应的负样本。2) 区域感知DPO损失:设计一个区域感知的DPO损失函数,该损失函数只在被破坏的区域进行偏好学习,从而实现更快速的收敛。3) 模型微调:使用生成的偏好对数据和区域感知的DPO损失函数,对预训练的文本到视频扩散模型进行微调,使其更好地对齐人类偏好。
关键创新:LocalDPO的关键创新在于:1) 提出了局部偏好学习的概念,将偏好学习从全局层面细化到时空区域层面,从而能够更精确地捕捉人类对视频细节的偏好。2) 设计了一个自动化的偏好对数据生成流程,避免了对外部critic模型或手动标注的依赖,提高了训练效率。3) 提出了区域感知的DPO损失函数,该损失函数只在被破坏的区域进行偏好学习,从而实现了更快速的收敛。
关键设计:在偏好对数据生成阶段,随机时空掩码的大小和位置是关键参数,需要根据视频的内容和目标进行调整。区域感知的DPO损失函数的设计需要考虑如何有效地将偏好学习限制在被破坏的区域,可以使用掩码机制或者注意力机制来实现。此外,学习率、batch size等超参数的设置也会影响模型的训练效果。
📊 实验亮点
在Wan2.1和CogVideoX数据集上的实验结果表明,LocalDPO在视频保真度、时间连贯性和人类偏好得分上均优于其他后训练方法。例如,在人类偏好评估中,LocalDPO相比于基线方法取得了显著的提升,表明该方法能够更好地对齐模型与人类偏好。
🎯 应用场景
LocalDPO可应用于各种文本到视频生成任务,例如电影制作、游戏开发、广告设计等。通过提升生成视频的真实感和用户满意度,该方法可以显著提高这些领域的生产效率和内容质量。未来,该方法还可以扩展到其他生成任务,例如图像生成、音频生成等。
📄 摘要(原文)
Aligning text-to-video diffusion models with human preferences is crucial for generating high-quality videos. Existing Direct Preference Otimization (DPO) methods rely on multi-sample ranking and task-specific critic models, which is inefficient and often yields ambiguous global supervision. To address these limitations, we propose LocalDPO, a novel post-training framework that constructs localized preference pairs from real videos and optimizes alignment at the spatio-temporal region level. We design an automated pipeline to efficiently collect preference pair data that generates preference pairs with a single inference per prompt, eliminating the need for external critic models or manual annotation. Specifically, we treat high-quality real videos as positive samples and generate corresponding negatives by locally corrupting them with random spatio-temporal masks and restoring only the masked regions using the frozen base model. During training, we introduce a region-aware DPO loss that restricts preference learning to corrupted areas for rapid convergence. Experiments on Wan2.1 and CogVideoX demonstrate that LocalDPO consistently improves video fidelity, temporal coherence and human preference scores over other post-training approaches, establishing a more efficient and fine-grained paradigm for video generator alignment.