McSc: Motion-Corrective Preference Alignment for Video Generation with Self-Critic Hierarchical Reasoning

📄 arXiv: 2511.22974v1 📥 PDF

作者: Qiushi Yang, Yingjie Chen, Yuan Yao, Yifang Men, Huaizhuo Liu, Miaomiao Cui

分类: cs.CV

发布日期: 2025-11-28


💡 一句话要点

提出McSc框架,通过自批判分层推理实现运动校正的视频生成偏好对齐。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本到视频生成 偏好对齐 强化学习 奖励模型 运动校正 自批判推理 分层推理

📋 核心要点

  1. 现有T2V偏好对齐方法依赖人工标注或代理指标,缺乏对人类偏好逻辑的理解,且忽略了运动动态等维度冲突。
  2. McSc框架通过自批判分层推理,将偏好分解为维度评估,并进行结构化多维推理,从而实现更鲁棒的偏好建模和对齐。
  3. 实验结果表明,McSc在人类偏好对齐方面优于现有方法,并能生成具有更高运动动态的视频。

📝 摘要(中文)

本文提出了一种用于文本到视频(T2V)生成的运动校正偏好对齐框架McSc,旨在解决合成视频与人类偏好对齐的难题。现有方法依赖昂贵的人工标注或代理指标,缺乏对人类偏好逻辑的理解,并且忽略了运动动态和视觉质量等潜在冲突维度,可能导致模型偏向低运动内容。McSc是一个三阶段强化学习框架,包含自批判维度推理(ScDR)训练生成奖励模型(RM),将偏好分解为维度评估;分层比较推理(HCR)进行结构化多维推理;以及运动校正直接偏好优化(McDPO)优化T2V模型,动态调整对齐目标权重以减轻对低运动内容的偏见。实验表明,McSc在人类偏好对齐方面表现出色,并能生成具有高运动动态的视频。

🔬 方法详解

问题定义:现有文本到视频生成模型在与人类偏好对齐方面存在挑战。现有方法依赖昂贵的人工标注或使用代理指标预测偏好,缺乏对人类偏好逻辑的理解。此外,它们通常直接将T2V模型与整体偏好分布对齐,忽略了运动动态和视觉质量等潜在冲突维度,这可能导致模型偏向低运动内容。

核心思路:McSc的核心思路是通过一个三阶段的强化学习框架,首先学习一个能够分解偏好并进行多维度评估的奖励模型,然后利用该奖励模型指导T2V模型的优化,同时动态调整优化目标,以避免模型偏向低运动内容。这样设计的目的是为了更准确地捕捉人类的偏好,并生成具有丰富运动动态的视频。

技术框架:McSc框架包含三个主要阶段:1) 自批判维度推理(ScDR):训练一个生成奖励模型(RM),将偏好分解为每个维度的评估,并使用自批判推理链进行可靠的学习。2) 分层比较推理(HCR):为了实现整体视频比较,引入HCR进行结构化的多维度推理,并使用分层奖励监督。3) 运动校正直接偏好优化(McDPO):使用RM偏好的视频,优化T2V模型,同时动态地重新加权对齐目标,以减轻对低运动内容的偏见。

关键创新:McSc的关键创新在于其自批判分层推理机制,它能够将复杂的偏好分解为多个维度进行评估,并通过分层结构进行推理,从而更准确地捕捉人类的偏好。此外,McDPO通过动态调整优化目标,有效地解决了模型偏向低运动内容的问题。

关键设计:在ScDR阶段,使用了自批判推理链来提高奖励模型的学习可靠性。在HCR阶段,设计了分层结构进行多维度推理。在McDPO阶段,动态调整对齐目标的权重,具体调整策略未知(原文未明确说明具体公式或算法)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,McSc在人类偏好对齐方面取得了显著的性能提升,能够生成具有更高运动动态的视频。具体性能数据和对比基线在摘要中有所提及,但未提供具体数值。该框架有效地解决了现有方法中存在的偏好对齐不准确和模型偏向低运动内容的问题。

🎯 应用场景

McSc框架可应用于各种文本到视频生成场景,例如电影制作、游戏开发、广告创意等。通过更准确地对齐人类偏好,该框架可以生成更符合用户需求的视频内容,提高用户满意度和内容质量。未来,该研究可以扩展到其他生成任务,例如图像生成和3D内容生成。

📄 摘要(原文)

Text-to-video (T2V) generation has achieved remarkable progress in producing high-quality videos aligned with textual prompts. However, aligning synthesized videos with nuanced human preference remains challenging due to the subjective and multifaceted nature of human judgment. Existing video preference alignment methods rely on costly human annotations or utilize proxy metrics to predict preference, which lacks the understanding of human preference logic. Moreover, they usually directly align T2V models with the overall preference distribution, ignoring potential conflict dimensions like motion dynamics and visual quality, which may bias models towards low-motion content. To address these issues, we present Motion-corrective alignment with Self-critic hierarchical Reasoning (McSc), a three-stage reinforcement learning framework for robust preference modeling and alignment. Firstly, Self-critic Dimensional Reasoning (ScDR) trains a generative reward model (RM) to decompose preferences into per-dimension assessments, using self-critic reasoning chains for reliable learning. Secondly, to achieve holistic video comparison, we introduce Hierarchical Comparative Reasoning (HCR) for structural multi-dimensional reasoning with hierarchical reward supervision. Finally, using RM-preferred videos, we propose Motion-corrective Direct Preference Optimization (McDPO) to optimize T2V models, while dynamically re-weighting alignment objective to mitigate bias towards low-motion content. Experiments show that McSc achieves superior performance in human preference alignment and generates videos with high-motion dynamic.