MoRight: Motion Control Done Right
作者: Shaowei Liu, Xuanchi Ren, Tianchang Shen, Huan Ling, Saurabh Gupta, Shenlong Wang, Sanja Fidler, Jun Gao
分类: cs.CV, cs.AI, cs.GR, cs.LG, cs.RO
发布日期: 2026-04-08
备注: Project Page: https://research.nvidia.com/labs/sil/projects/moright
💡 一句话要点
MoRight:提出解耦运动控制框架,实现可控且因果一致的视频生成。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 运动控制 视频生成 解耦运动建模 因果关系学习 跨视图注意力
📋 核心要点
- 现有方法无法有效解耦相机运动和物体运动,导致用户难以分别控制视角和物体行为。
- MoRight将物体运动在规范视图中建模,通过跨视图注意力机制转移到目标视角,实现运动解耦。
- MoRight将运动分解为主动和被动分量,学习运动因果关系,实验证明其生成质量和可控性更优。
📝 摘要(中文)
本文提出MoRight,一个统一的框架,旨在生成运动控制视频,即用户指定的动作驱动物理上合理的场景动态,并允许自由选择视角。该框架解决了现有方法在两个方面的不足:一是运动控制的解耦性,现有方法将相机和物体运动耦合到单一的跟踪信号中;二是运动的因果性,现有方法将运动视为运动学位移,而忽略了物体运动之间的因果关系。MoRight通过解耦运动建模来解决这两个限制。物体运动在规范的静态视图中指定,并通过时间跨视图注意力转移到任意目标相机视角,从而实现相机和物体控制的解耦。此外,我们将运动分解为主动(用户驱动)和被动(结果)分量,训练模型从数据中学习运动因果关系。在推理时,用户可以提供主动运动,MoRight预测结果(正向推理),或者指定期望的被动结果,MoRight恢复合理的驱动动作(逆向推理),同时自由调整相机视角。在三个基准测试上的实验表明,在生成质量、运动可控性和交互感知方面,MoRight达到了最先进的性能。
🔬 方法详解
问题定义:现有运动控制视频生成方法的主要痛点在于无法有效解耦相机运动和物体运动,导致用户难以独立控制视角和物体行为。此外,现有方法通常将运动视为简单的位移,忽略了物体之间的因果关系,使得生成的视频缺乏物理合理性和交互性。
核心思路:MoRight的核心思路是将物体运动在规范的静态视图中进行建模,然后通过时间跨视图注意力机制将运动信息转移到任意目标相机视角,从而实现相机运动和物体运动的解耦。同时,将运动分解为主动(用户驱动)和被动(结果)分量,并通过学习数据中的因果关系来预测物体之间的交互行为。
技术框架:MoRight的整体框架包含以下几个主要模块:1) 规范视图运动建模模块,用于在静态视图中表示物体运动;2) 时间跨视图注意力模块,用于将规范视图中的运动信息转移到目标相机视角;3) 主动/被动运动分解模块,用于将运动分解为用户驱动的主动运动和由因果关系产生的被动运动;4) 视频生成模块,用于根据运动信息生成最终的视频。
关键创新:MoRight最重要的技术创新点在于解耦运动建模和运动因果关系的学习。通过在规范视图中建模运动,并使用跨视图注意力机制,MoRight能够实现相机和物体运动的独立控制。通过分解主动和被动运动,并学习数据中的因果关系,MoRight能够生成更具物理合理性和交互性的视频。
关键设计:MoRight的关键设计包括:1) 使用Transformer架构实现时间跨视图注意力机制,从而有效地将规范视图中的运动信息转移到目标相机视角;2) 设计损失函数来鼓励模型学习运动的因果关系,例如,使用对抗损失来确保生成的被动运动与主动运动在物理上是一致的;3) 使用多尺度特征来表示运动信息,从而捕捉不同尺度的运动模式。
🖼️ 关键图片
📊 实验亮点
MoRight在三个基准测试上都取得了最先进的性能。具体来说,在生成质量方面,MoRight的FID得分显著优于现有方法。在运动可控性方面,MoRight能够更精确地控制物体运动和相机视角。在交互感知方面,MoRight能够生成更具物理合理性和交互性的视频,例如,当用户移动一个物体时,MoRight能够预测其他物体的相应反应。
🎯 应用场景
MoRight在视频编辑、游戏开发、机器人控制等领域具有广泛的应用前景。例如,用户可以使用MoRight轻松地编辑视频中的物体运动,或者在游戏中创建更具交互性的场景。此外,MoRight还可以用于训练机器人,使其能够更好地理解和预测环境中的物体运动。
📄 摘要(原文)
Generating motion-controlled videos--where user-specified actions drive physically plausible scene dynamics under freely chosen viewpoints--demands two capabilities: (1) disentangled motion control, allowing users to separately control the object motion and adjust camera viewpoint; and (2) motion causality, ensuring that user-driven actions trigger coherent reactions from other objects rather than merely displacing pixels. Existing methods fall short on both fronts: they entangle camera and object motion into a single tracking signal and treat motion as kinematic displacement without modeling causal relationships between object motion. We introduce MoRight, a unified framework that addresses both limitations through disentangled motion modeling. Object motion is specified in a canonical static-view and transferred to an arbitrary target camera viewpoint via temporal cross-view attention, enabling disentangled camera and object control. We further decompose motion into active (user-driven) and passive (consequence) components, training the model to learn motion causality from data. At inference, users can either supply active motion and MoRight predicts consequences (forward reasoning), or specify desired passive outcomes and MoRight recovers plausible driving actions (inverse reasoning), all while freely adjusting the camera viewpoint. Experiments on three benchmarks demonstrate state-of-the-art performance in generation quality, motion controllability, and interaction awareness.