MotionPro: A Precise Motion Controller for Image-to-Video Generation

📄 arXiv: 2505.20287v1 📥 PDF

作者: Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei

分类: cs.CV, cs.MM

发布日期: 2025-05-26

备注: CVPR 2025. Project page: https://zhw-zhang.github.io/MotionPro-page/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MotionPro:用于图像到视频生成的精确运动控制器

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 图像到视频生成 运动控制 区域轨迹 运动掩码 视频去噪 细粒度控制 MC-Bench

📋 核心要点

  1. 现有I2V方法依赖高斯核扩展运动轨迹,缺乏对运动区域的明确定义,导致运动控制粗糙,无法有效分离对象和相机运动。
  2. MotionPro利用区域轨迹实现细粒度运动控制,并使用运动掩码区分对象和相机运动,从而实现更精确和自然的视频生成。
  3. 在WebVid-10M和MC-Bench上的实验表明,MotionPro在细粒度和对象级别的I2V运动控制方面表现出色,验证了其有效性。

📝 摘要(中文)

交互式运动控制的图像动画生成在图像到视频(I2V)生成领域日益流行。现有方法通常依赖大型高斯核来扩展运动轨迹作为条件,但未明确定义运动区域,导致运动控制粗糙,且无法解耦对象和相机运动。为解决这些问题,我们提出了MotionPro,一种精确的运动控制器,创新性地利用区域轨迹和运动掩码分别调节细粒度的运动合成,并识别目标运动类别(即对象或相机运动)。在技术上,MotionPro首先通过跟踪模型估计每个训练视频上的光流图,然后采样区域轨迹来模拟推理场景。我们的区域轨迹方法直接利用局部区域内的轨迹,从而实现更精确的控制,有效地表征细粒度的运动,而非通过大型高斯核扩展光流。同时,从预测的光流图中导出运动掩码,以捕获运动区域的整体运动动态。为了追求自然的运动控制,MotionPro通过结合区域轨迹和运动掩码进行特征调制,进一步加强了视频去噪。更值得注意的是,我们精心构建了一个基准测试集,即MC-Bench,包含1.1K个用户标注的图像-轨迹对,用于评估细粒度和对象级别的I2V运动控制。在WebVid-10M和MC-Bench上进行的大量实验证明了MotionPro的有效性。

🔬 方法详解

问题定义:现有图像到视频生成方法在运动控制方面存在不足,主要体现在无法精确控制运动的细节,并且难以区分不同类型的运动(例如,对象运动和相机运动)。现有方法依赖于使用大型高斯核来平滑和扩展运动轨迹,这导致了运动控制的模糊性和粗糙性。此外,这些方法通常无法明确地定义运动区域,使得难以对特定区域进行精确的运动控制。

核心思路:MotionPro的核心思路是通过引入区域轨迹和运动掩码来实现更精确和细粒度的运动控制。区域轨迹允许直接控制局部区域内的运动轨迹,从而避免了使用高斯核进行平滑处理带来的模糊性。运动掩码则用于区分不同类型的运动,例如对象运动和相机运动,从而使得模型能够更好地理解和生成视频。

技术框架:MotionPro的整体框架包括以下几个主要步骤:1) 使用跟踪模型估计训练视频的光流图;2) 从光流图中采样区域轨迹,以模拟推理场景;3) 从光流图中导出运动掩码,以捕获运动区域的整体运动动态;4) 通过结合区域轨迹和运动掩码进行特征调制,以增强视频去噪效果。

关键创新:MotionPro的关键创新在于引入了区域轨迹和运动掩码的概念,并将其应用于图像到视频生成任务中。与现有方法相比,MotionPro能够实现更精确和细粒度的运动控制,并且能够更好地区分不同类型的运动。此外,MotionPro还构建了一个新的基准测试集MC-Bench,用于评估细粒度和对象级别的I2V运动控制。

关键设计:MotionPro的关键设计包括:1) 使用跟踪模型RAFT来估计光流图;2) 设计了一种采样策略来从光流图中采样区域轨迹;3) 设计了一种方法来从光流图中导出运动掩码;4) 使用特征调制技术将区域轨迹和运动掩码融入到视频生成模型中。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MotionPro在WebVid-10M和MC-Bench数据集上进行了广泛的实验,结果表明MotionPro在细粒度和对象级别的I2V运动控制方面显著优于现有方法。特别是在MC-Bench数据集上,MotionPro在运动控制精度和视频质量方面均取得了显著提升,证明了其有效性。

🎯 应用场景

MotionPro在图像到视频生成领域具有广泛的应用前景,例如,可以用于创建具有精确运动控制的动画、生成逼真的虚拟现实内容、以及进行视频编辑和特效处理。该研究的实际价值在于提高了图像到视频生成的可控性和真实感,未来可能影响电影制作、游戏开发、教育娱乐等多个领域。

📄 摘要(原文)

Animating images with interactive motion control has garnered popularity for image-to-video (I2V) generation. Modern approaches typically rely on large Gaussian kernels to extend motion trajectories as condition without explicitly defining movement region, leading to coarse motion control and failing to disentangle object and camera moving. To alleviate these, we present MotionPro, a precise motion controller that novelly leverages region-wise trajectory and motion mask to regulate fine-grained motion synthesis and identify target motion category (i.e., object or camera moving), respectively. Technically, MotionPro first estimates the flow maps on each training video via a tracking model, and then samples the region-wise trajectories to simulate inference scenario. Instead of extending flow through large Gaussian kernels, our region-wise trajectory approach enables more precise control by directly utilizing trajectories within local regions, thereby effectively characterizing fine-grained movements. A motion mask is simultaneously derived from the predicted flow maps to capture the holistic motion dynamics of the movement regions. To pursue natural motion control, MotionPro further strengthens video denoising by incorporating both region-wise trajectories and motion mask through feature modulation. More remarkably, we meticulously construct a benchmark, i.e., MC-Bench, with 1.1K user-annotated image-trajectory pairs, for the evaluation of both fine-grained and object-level I2V motion control. Extensive experiments conducted on WebVid-10M and MC-Bench demonstrate the effectiveness of MotionPro. Please refer to our project page for more results: https://zhw-zhang.github.io/MotionPro-page/.