MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent

📄 arXiv: 2502.03207v2 📥 PDF

作者: Xinyao Liao, Xianfang Zeng, Liao Wang, Gang Yu, Guosheng Lin, Chi Zhang

分类: cs.CV, cs.GR

发布日期: 2025-02-05 (更新: 2025-10-15)


💡 一句话要点

MotionAgent:通过运动场代理实现细粒度可控的视频生成

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)

关键词: 文本到视频生成 运动控制 运动场代理 光流估计 扩散模型

📋 核心要点

  1. 现有文本到视频生成方法难以实现对视频中物体和相机运动的精细控制。
  2. MotionAgent通过运动场代理将文本描述的运动信息转化为显式运动场,从而实现精确控制。
  3. 实验表明,MotionAgent在相机运动控制和运动生成精度方面优于现有方法。

📝 摘要(中文)

本文提出MotionAgent,一种用于文本引导的图像到视频生成方法,能够实现细粒度的运动控制。其核心技术是运动场代理,该代理将文本提示中的运动信息转换为显式的运动场,从而提供灵活而精确的运动指导。具体来说,该代理提取文本中描述的物体运动和相机运动,并将它们分别转换为物体轨迹和相机外参。一个分析光流合成模块在3D空间中整合这些运动表示,并将它们投影到统一的光流中。光流适配器利用该光流来控制基础的图像到视频扩散模型,从而生成细粒度控制的视频。在VBench上的视频-文本相机运动指标的显著改进表明,我们的方法实现了对相机运动的精确控制。我们构建了VBench的一个子集来评估文本中的运动信息与生成的视频的对齐情况,并在运动生成精度方面优于其他先进模型。

🔬 方法详解

问题定义:现有文本到视频生成方法在控制视频中物体和相机的精细运动方面存在困难。用户难以精确指定物体的运动轨迹、速度以及相机的运动方式(例如平移、旋转等)。现有的方法通常依赖于隐式的运动学习,缺乏对运动的显式控制,导致生成视频的运动与文本描述不一致,或者无法实现复杂的运动效果。

核心思路:MotionAgent的核心思路是将文本描述的运动信息解耦为物体运动和相机运动,并将这些运动信息显式地表示为运动场。通过一个运动场代理,将文本中的运动描述转换为物体轨迹和相机外参,然后将这些运动信息合成为光流场,最后利用光流场来引导视频生成过程。这种显式的运动控制方式使得用户可以更精确地控制视频中的运动。

技术框架:MotionAgent的整体框架包括以下几个主要模块:1) 文本运动信息提取模块:从文本提示中提取物体运动和相机运动的描述。2) 运动场代理:将提取的运动描述转换为物体轨迹和相机外参。3) 光流合成模块:在3D空间中整合物体轨迹和相机外参,并将它们投影到统一的光流场中。4) 光流适配器:利用光流场来控制基础的图像到视频扩散模型,从而生成视频。

关键创新:MotionAgent的关键创新在于引入了运动场代理,将文本中的运动信息显式地表示为运动场。这种显式的运动表示方式使得用户可以更精确地控制视频中的运动,并且可以实现复杂的运动效果。此外,光流合成模块能够有效地整合物体运动和相机运动,从而生成更逼真的视频。

关键设计:运动场代理的具体实现方式未知,论文中可能没有详细描述。光流合成模块可能使用了可微分的渲染技术,以便将3D运动信息投影到2D光流场中。光流适配器可能使用了类似ControlNet的网络结构,将光流场作为额外的控制信号输入到扩散模型中。损失函数的设计可能包括视频-文本对齐损失、运动一致性损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MotionAgent在VBench数据集上取得了显著的性能提升,特别是在视频-文本相机运动指标方面。实验结果表明,MotionAgent能够更精确地控制相机运动,并且在运动生成精度方面优于其他先进模型。具体的数据指标和提升幅度需要在论文中查找。

🎯 应用场景

MotionAgent具有广泛的应用前景,例如:视频编辑、游戏开发、电影制作、虚拟现实等。它可以帮助用户更轻松地创建具有复杂运动效果的视频内容,例如:模拟车辆行驶、人物跳舞、相机运动等。此外,MotionAgent还可以用于数据增强,生成更多样化的训练数据,从而提高视频生成模型的性能。

📄 摘要(原文)

We propose MotionAgent, enabling fine-grained motion control for text-guided image-to-video generation. The key technique is the motion field agent that converts motion information in text prompts into explicit motion fields, providing flexible and precise motion guidance. Specifically, the agent extracts the object movement and camera motion described in the text and converts them into object trajectories and camera extrinsics, respectively. An analytical optical flow composition module integrates these motion representations in 3D space and projects them into a unified optical flow. An optical flow adapter takes the flow to control the base image-to-video diffusion model for generating fine-grained controlled videos. The significant improvement in the Video-Text Camera Motion metrics on VBench indicates that our method achieves precise control over camera motion. We construct a subset of VBench to evaluate the alignment of motion information in the text and the generated video, outperforming other advanced models on motion generation accuracy.