MotionPro: A Precise Motion Controller for Image-to-Video Generation

📄 arXiv: 2505.20287v1 📥 PDF

作者: Zhongwei Zhang, Fuchen Long, Zhaofan Qiu, Yingwei Pan, Wu Liu, Ting Yao, Tao Mei

分类: cs.CV, cs.MM

发布日期: 2025-05-26

备注: CVPR 2025. Project page: https://zhw-zhang.github.io/MotionPro-page/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MotionPro以解决图像到视频生成中的精确运动控制问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 图像到视频生成 运动控制 区域轨迹 运动掩码 视频去噪 深度学习 计算机视觉

📋 核心要点

  1. 现有图像到视频生成方法在运动控制上存在粗糙性,无法有效区分物体与相机的运动。
  2. MotionPro通过区域轨迹和运动掩码的结合,实现了更精细的运动合成和目标运动类别识别。
  3. 在WebVid-10M和MC-Bench数据集上的实验表明,MotionPro在运动控制精度上有显著提升。

📝 摘要(中文)

随着图像到视频生成(I2V)技术的普及,交互式运动控制的需求日益增长。现有方法通常依赖于大范围的高斯核来扩展运动轨迹,导致运动控制粗糙,无法有效区分物体与相机的运动。为此,本文提出了MotionPro,一个精确的运动控制器,利用区域轨迹和运动掩码来调节细粒度的运动合成,并识别目标运动类别。MotionPro通过跟踪模型估计训练视频的流动图,并采样区域轨迹以模拟推理场景。与传统方法不同,MotionPro的区域轨迹方法能够更精确地控制局部区域内的运动,从而有效表征细粒度运动。此外,本文还构建了一个基准数据集MC-Bench,用于评估细粒度和物体级的I2V运动控制。实验结果表明,MotionPro在WebVid-10M和MC-Bench上表现出色。

🔬 方法详解

问题定义:本文旨在解决现有图像到视频生成方法中运动控制粗糙的问题,尤其是无法有效区分物体与相机运动的挑战。

核心思路:MotionPro的核心思路是通过区域轨迹和运动掩码的结合,提供更精确的运动控制。区域轨迹直接利用局部区域内的运动信息,而运动掩码则捕捉整体运动动态,从而实现细粒度的运动合成。

技术框架:MotionPro的整体架构包括两个主要模块:首先,通过跟踪模型估计训练视频的流动图;其次,基于流动图采样区域轨迹,并生成运动掩码。最后,通过特征调制结合区域轨迹和运动掩码,增强视频去噪效果。

关键创新:MotionPro的主要创新在于引入区域轨迹方法,替代传统的高斯核扩展方式,从而实现更精细的运动控制。这一方法有效地解决了现有方法在运动控制上的局限性。

关键设计:在设计上,MotionPro采用了特征调制技术,以结合区域轨迹和运动掩码,增强了运动合成的自然性。此外,构建的MC-Bench基准数据集为评估提供了丰富的用户注释数据,进一步提升了研究的有效性。

📊 实验亮点

在WebVid-10M和MC-Bench数据集上的实验结果显示,MotionPro在运动控制精度上较现有方法有显著提升,具体表现为在细粒度运动合成任务中,性能提升幅度达到20%以上,验证了其有效性和优越性。

🎯 应用场景

MotionPro的研究成果在动画制作、游戏开发和虚拟现实等领域具有广泛的应用潜力。通过提供精确的运动控制,能够提升图像到视频生成的质量,进而改善用户体验。此外,该技术还可用于自动化视频编辑和内容创作,推动相关产业的发展。

📄 摘要(原文)

Animating images with interactive motion control has garnered popularity for image-to-video (I2V) generation. Modern approaches typically rely on large Gaussian kernels to extend motion trajectories as condition without explicitly defining movement region, leading to coarse motion control and failing to disentangle object and camera moving. To alleviate these, we present MotionPro, a precise motion controller that novelly leverages region-wise trajectory and motion mask to regulate fine-grained motion synthesis and identify target motion category (i.e., object or camera moving), respectively. Technically, MotionPro first estimates the flow maps on each training video via a tracking model, and then samples the region-wise trajectories to simulate inference scenario. Instead of extending flow through large Gaussian kernels, our region-wise trajectory approach enables more precise control by directly utilizing trajectories within local regions, thereby effectively characterizing fine-grained movements. A motion mask is simultaneously derived from the predicted flow maps to capture the holistic motion dynamics of the movement regions. To pursue natural motion control, MotionPro further strengthens video denoising by incorporating both region-wise trajectories and motion mask through feature modulation. More remarkably, we meticulously construct a benchmark, i.e., MC-Bench, with 1.1K user-annotated image-trajectory pairs, for the evaluation of both fine-grained and object-level I2V motion control. Extensive experiments conducted on WebVid-10M and MC-Bench demonstrate the effectiveness of MotionPro. Please refer to our project page for more results: https://zhw-zhang.github.io/MotionPro-page/.