Improving Video Generation with Human Feedback

📄 arXiv: 2501.13918v2 📥 PDF

作者: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang

分类: cs.CV, cs.AI, cs.GR, cs.LG

发布日期: 2025-01-23 (更新: 2025-10-27)

备注: https://github.com/KwaiVGI/VideoAlign


💡 一句话要点

提出基于人类反馈的视频生成优化流程,解决运动不平滑和对齐问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频生成 人类反馈 强化学习 奖励模型 偏好学习

📋 核心要点

  1. 现有基于rectified flow的视频生成方法存在运动不平滑以及视频内容与prompt不一致的问题。
  2. 论文核心在于构建人类偏好数据集,训练多维奖励模型VideoReward,并使用强化学习优化生成模型。
  3. 实验表明,提出的VideoReward优于现有奖励模型,Flow-DPO优于其他微调方法,Flow-NRG支持个性化视频生成。

📝 摘要(中文)

本文提出了一种系统的流程,利用人类反馈来缓解视频生成模型中存在的运动不平滑和视频与提示词不对齐等问题,并对模型进行优化。首先,构建了一个大规模的人类偏好数据集,该数据集专注于现代视频生成模型,并包含跨多个维度的成对标注。然后,引入了VideoReward,一个多维视频奖励模型,并研究了标注和各种设计选择如何影响其奖励效果。从统一的强化学习角度出发,以最大化奖励和KL正则化为目标,为基于流的模型引入了三种对齐算法,包括两种训练时策略:Flow-DPO和Flow-RWR,以及一种推理时技术Flow-NRG,它将奖励指导直接应用于噪声视频。实验结果表明,VideoReward明显优于现有的奖励模型,Flow-DPO的表现优于Flow-RWR和监督微调方法。此外,Flow-NRG允许用户在推理过程中为多个目标分配自定义权重,从而满足个性化的视频质量需求。

🔬 方法详解

问题定义:当前视频生成模型,特别是基于rectified flow的模型,在生成高质量视频时面临两个主要挑战:一是生成的视频运动不够平滑,存在抖动或不自然的过渡;二是视频内容与用户提供的文本提示(prompt)之间存在不对齐的情况,即视频未能准确反映prompt所描述的场景或动作。现有方法难以有效解决这些问题,导致生成视频的质量和用户满意度受到限制。

核心思路:论文的核心思路是利用人类的偏好反馈来指导视频生成模型的训练和优化。通过收集大量人类对不同视频生成结果的偏好数据,训练一个能够准确评估视频质量和对齐程度的奖励模型。然后,利用强化学习算法,以最大化奖励模型输出的奖励为目标,对视频生成模型进行微调,从而提高生成视频的质量和对齐程度。

技术框架:整体框架包含三个主要部分:1) 人类偏好数据集构建:收集大规模的人类对视频生成结果的偏好标注,形成数据集。2) VideoReward奖励模型训练:基于人类偏好数据集,训练一个多维视频奖励模型,用于评估生成视频的质量和与prompt的对齐程度。3) 强化学习优化:利用强化学习算法,以最大化VideoReward的输出为目标,对视频生成模型进行优化。具体包括训练时策略Flow-DPO和Flow-RWR,以及推理时技术Flow-NRG。

关键创新:论文的关键创新在于:1) 构建了大规模的人类偏好数据集,为基于人类反馈的视频生成研究提供了数据基础。2) 提出了多维视频奖励模型VideoReward,能够更准确地评估视频质量和对齐程度。3) 提出了三种基于强化学习的对齐算法(Flow-DPO, Flow-RWR, Flow-NRG),能够有效地利用人类反馈来优化视频生成模型。与现有方法的本质区别在于,该方法直接利用人类的偏好信息来指导模型的训练,而不是依赖于间接的损失函数或正则化项。

关键设计:在VideoReward模型中,采用了多维度的奖励设计,例如运动平滑度、内容对齐度等,并研究了不同标注方式对奖励效果的影响。在强化学习优化中,采用了KL正则化来防止模型过度拟合人类偏好。Flow-DPO和Flow-RWR是两种不同的训练时策略,分别基于直接偏好优化和奖励加权回归。Flow-NRG则是一种推理时技术,允许用户在生成视频时自定义不同目标的权重,从而实现个性化的视频生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的VideoReward模型在评估视频质量方面显著优于现有的奖励模型。Flow-DPO算法在视频生成质量方面优于Flow-RWR和监督微调方法。Flow-NRG算法允许用户在推理时调整不同目标的权重,从而实现个性化的视频生成。这些结果表明,基于人类反馈的视频生成方法能够有效地提高视频质量和用户满意度。

🎯 应用场景

该研究成果可应用于各种视频生成场景,例如游戏开发、电影制作、广告设计等。通过利用人类反馈,可以生成更高质量、更符合用户需求的视频内容。未来,该技术有望进一步发展,实现更加智能和个性化的视频生成,例如根据用户的情绪或意图生成视频。

📄 摘要(原文)

Video generation has achieved significant advances through rectified flow techniques, but issues like unsmooth motion and misalignment between videos and prompts persist. In this work, we develop a systematic pipeline that harnesses human feedback to mitigate these problems and refine the video generation model. Specifically, we begin by constructing a large-scale human preference dataset focused on modern video generation models, incorporating pairwise annotations across multi-dimensions. We then introduce VideoReward, a multi-dimensional video reward model, and examine how annotations and various design choices impact its rewarding efficacy. From a unified reinforcement learning perspective aimed at maximizing reward with KL regularization, we introduce three alignment algorithms for flow-based models. These include two training-time strategies: direct preference optimization for flow (Flow-DPO) and reward weighted regression for flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies reward guidance directly to noisy videos. Experimental results indicate that VideoReward significantly outperforms existing reward models, and Flow-DPO demonstrates superior performance compared to both Flow-RWR and supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom weights to multiple objectives during inference, meeting personalized video quality needs.