What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
作者: Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
分类: cs.CV
发布日期: 2025-11-29
备注: Project page: https://cvlab-stonybrook.github.io/NewtonRewards
💡 一句话要点
提出NewtonRewards,通过可验证奖励后训练视频生成模型,提升物理真实性。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 视频生成 物理约束 后训练 可验证奖励 牛顿定律
📋 核心要点
- 现有视频生成模型在视觉效果上表现出色,但常常违反物理定律,缺乏物理真实性。
- 提出NewtonRewards框架,利用可验证的奖励机制,在后训练阶段提升视频的物理合理性。
- 实验表明,NewtonRewards在多个运动原语上显著提升了物理合理性、运动平滑性和时间一致性。
📝 摘要(中文)
最新的视频扩散模型能够合成视觉上引人注目的片段,但经常违反基本的物理定律,例如物体漂浮、加速度漂移和碰撞行为不一致,这揭示了视觉真实感和物理真实感之间长期存在的差距。我们提出了$ exttt{NewtonRewards}$,这是第一个基于$ extit{可验证奖励}$的视频生成物理后训练框架。$ exttt{NewtonRewards}$没有依赖于人工或VLM反馈,而是使用冻结的效用模型从生成的视频中提取$ extit{可测量的代理}$:光流作为速度的代理,而高层外观特征作为质量的代理。这些代理能够通过两个互补的奖励来显式地执行牛顿结构:一个牛顿运动学约束,用于执行恒定加速度动力学;以及一个质量守恒奖励,用于防止琐碎的、退化的解决方案。我们在五个牛顿运动原语(自由落体、水平/抛物线投掷和斜坡下滑/上滑)上,使用我们新构建的大规模基准$ exttt{NewtonBench-60K}$评估了$ exttt{NewtonRewards}$。在视觉和物理指标的所有原语中,$ exttt{NewtonRewards}$始终优于先前的后训练方法,提高了物理合理性、运动平滑性和时间一致性。它进一步在高度、速度和摩擦力的分布外偏移下保持了强大的性能。我们的结果表明,基于物理的可验证奖励为物理感知视频生成提供了一条可扩展的路径。
🔬 方法详解
问题定义:现有视频生成模型虽然视觉效果逼真,但生成的视频内容常常违反基本的物理定律,例如物体悬浮、加速度不恒定、碰撞不符合物理规律等。这些问题表明,现有模型在物理真实性方面存在明显不足,难以生成符合物理世界规律的视频内容。
核心思路:NewtonRewards的核心思路是通过可验证的奖励函数,在视频生成的后训练阶段,对模型进行微调,使其生成的视频更符合牛顿物理定律。该方法不依赖于人工标注或大型语言模型(VLM)的反馈,而是通过可测量的代理变量来构建奖励函数,从而实现对物理规律的显式约束。
技术框架:NewtonRewards框架主要包含以下几个模块:1) 视频生成模型:使用现有的视频扩散模型生成初始视频。2) 代理变量提取器:使用预训练的效用模型(如光流估计网络和特征提取网络)从生成的视频中提取可测量的代理变量,例如速度(通过光流估计)和质量(通过高层外观特征)。3) 奖励函数:基于提取的代理变量,构建两个奖励函数:牛顿运动学约束奖励(鼓励恒定加速度运动)和质量守恒奖励(防止生成退化的解决方案)。4) 后训练优化器:使用强化学习或梯度下降等优化算法,根据奖励函数对视频生成模型进行微调。
关键创新:NewtonRewards的关键创新在于提出了基于可验证奖励的后训练框架,该框架能够显式地约束视频生成过程,使其符合牛顿物理定律。与依赖人工或VLM反馈的方法相比,NewtonRewards使用可测量的代理变量构建奖励函数,避免了主观性和不确定性,提高了训练的稳定性和可扩展性。
关键设计:NewtonRewards的关键设计包括:1) 使用光流作为速度的代理,使用高层外观特征作为质量的代理。2) 构建牛顿运动学约束奖励,鼓励物体以恒定加速度运动,例如自由落体运动。3) 构建质量守恒奖励,防止模型生成质量发生变化的物体,避免生成退化的解决方案。4) 使用$ exttt{NewtonBench-60K}$数据集进行评估,该数据集包含大量符合牛顿运动定律的视频。
📊 实验亮点
实验结果表明,NewtonRewards在NewtonBench-60K数据集的五个牛顿运动原语上,显著提升了视频的物理合理性、运动平滑性和时间一致性。与之前的后训练方法相比,NewtonRewards在视觉和物理指标上均取得了更好的性能。此外,NewtonRewards在高度、速度和摩擦力等分布外偏移下,仍然保持了较强的性能,表明其具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于机器人仿真、游戏开发、虚拟现实等领域,提升生成内容的真实感和物理合理性。例如,在机器人仿真中,可以生成更逼真的环境和物体运动,提高仿真结果的可靠性。在游戏开发中,可以生成更符合物理规律的游戏场景,提升玩家的沉浸感。未来,该方法有望扩展到更复杂的物理场景,例如流体和软体模拟。
📄 摘要(原文)
Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose $\texttt{NewtonRewards}$, the first physics-grounded post-training framework for video generation based on $\textit{verifiable rewards}$. Instead of relying on human or VLM feedback, $\texttt{NewtonRewards}$ extracts $\textit{measurable proxies}$ from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate $\texttt{NewtonRewards}$ on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, $\texttt{NewtonBench-60K}$. Across all primitives in visual and physics metrics, $\texttt{NewtonRewards}$ consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.