Training-free Motion Factorization for Compositional Video Generation

📄 arXiv: 2603.09104v1 📥 PDF

作者: Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei

分类: cs.CV

发布日期: 2026-03-10

备注: Accepted to CVPR 2026


💡 一句话要点

提出一种无训练的运动分解框架,用于可组合视频生成,提升运动多样性。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 可组合视频生成 运动分解 运动规划 扩散模型 无训练学习

📋 核心要点

  1. 现有可组合视频生成方法侧重语义绑定,忽略了对提示中多样运动类别的理解,限制了生成视频的真实感。
  2. 提出一种无训练的运动分解框架,将复杂运动解耦为静止、刚性运动和非刚性运动三种类别,实现更精细的运动控制。
  3. 该框架可无缝集成到各种扩散模型架构中,并在真实数据集上取得了显著的运动合成性能提升,验证了其有效性。

📝 摘要(中文)

本文提出了一种运动分解框架,用于可组合视频生成,旨在合成具有多样外观和运动的多个实例。现有方法主要关注语义绑定,忽略了理解提示中指定的多样运动类别。该框架将复杂运动分解为三种主要类别:静止、刚性运动和非刚性运动。框架遵循“先规划后生成”的范式。在规划阶段,通过运动图推理运动规律,获得每个实例形状和位置的逐帧变化,将用户提示组织成实例及其交互的结构化表示,从而减轻语义模糊性。在生成阶段,以解耦的方式调节不同运动类别的合成。基于运动线索,引导分支稳定静止区域的外观,保持刚体几何形状,并规范局部非刚性变形。该框架是模型无关的,可以无缝集成到各种扩散模型架构中。大量实验表明,该框架在真实基准测试中实现了令人印象深刻的运动合成性能。代码即将发布。

🔬 方法详解

问题定义:可组合视频生成旨在合成具有不同外观和运动的多个实例。现有方法主要关注如何将语义信息绑定到生成过程中,而忽略了对运动本身的建模,特别是对不同类型运动的区分和控制。这导致生成的视频在运动方面缺乏多样性和真实感,难以满足实际应用的需求。

核心思路:论文的核心思路是将复杂的运动分解为三种基本类型:静止、刚性运动和非刚性运动。通过对这三种基本运动类型进行解耦建模和控制,可以更精细地控制生成视频中每个实例的运动方式,从而提高生成视频的运动多样性和真实感。此外,采用“先规划后生成”的范式,先对运动进行规划,再根据规划结果进行生成,可以有效缓解语义模糊性,提高生成结果的质量。

技术框架:该框架包含两个主要模块:运动规划模块和运动生成模块。运动规划模块基于运动图推理运动规律,获得每个实例形状和位置的逐帧变化。运动生成模块则根据运动规划的结果,以解耦的方式调节不同运动类别的合成。具体来说,运动生成模块包含三个分支:静止分支、刚性运动分支和非刚性运动分支。静止分支用于稳定静止区域的外观,刚性运动分支用于保持刚体几何形状,非刚性运动分支用于规范局部非刚性变形。

关键创新:该论文的关键创新在于提出了一个无训练的运动分解框架,可以将复杂运动分解为三种基本类型,并以解耦的方式进行控制。这种方法无需额外的训练数据,可以直接应用于各种扩散模型架构中,具有很强的通用性和可扩展性。此外,该框架采用“先规划后生成”的范式,可以有效缓解语义模糊性,提高生成结果的质量。

关键设计:运动规划模块使用运动图来表示实例之间的交互关系和运动规律。运动图中的节点表示实例,边表示实例之间的关系。运动规划模块通过在运动图上进行推理,获得每个实例形状和位置的逐帧变化。运动生成模块使用三个分支来分别处理静止、刚性运动和非刚性运动。每个分支都包含一个独立的网络结构,用于学习对应运动类型的特征表示。损失函数的设计旨在鼓励不同分支学习到解耦的运动特征,并保证生成结果的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在真实数据集上实现了显著的运动合成性能提升。与现有方法相比,该框架能够生成更逼真、更多样化的运动效果。具体性能数据和对比基线将在代码发布后提供。该框架的无训练特性使其具有很强的通用性和可扩展性,可以方便地应用于各种扩散模型架构中。

🎯 应用场景

该研究成果可广泛应用于视频内容创作、游戏开发、虚拟现实等领域。例如,可以用于生成具有逼真运动效果的虚拟角色动画,或者用于创建具有丰富交互性的游戏场景。此外,该方法还可以用于视频编辑和增强,例如,可以用于修复视频中的运动模糊,或者用于增强视频中的运动效果。未来,该技术有望在智能监控、自动驾驶等领域发挥重要作用。

📄 摘要(原文)

Compositional video generation aims to synthesize multiple instances with diverse appearance and motion, which is widely applicable in real-world scenarios. However, current approaches mainly focus on binding semantics, neglecting to understand diverse motion categories specified in prompts. In this paper, we propose a motion factorization framework that decomposes complex motion into three primary categories: motionlessness, rigid motion, and non-rigid motion. Specifically, our framework follows a planning before generation paradigm. (1) During planning, we reason about motion laws on the motion graph to obtain frame-wise changes in the shape and position of each instance. This alleviates semantic ambiguities in the user prompt by organizing it into a structured representation of instances and their interactions. (2) During generation, we modulate the synthesis of distinct motion categories in a disentangled manner. Conditioned on the motion cues, guidance branches stabilize appearance in motionless regions, preserve rigid-body geometry, and regularize local non-rigid deformations. Crucially, our two modules are model-agnostic, which can be seamlessly incorporated into various diffusion model architectures. Extensive experiments demonstrate that our framework achieves impressive performance in motion synthesis on real-world benchmarks. Our code will be released soon.