ReVision: Refining Video Diffusion with Explicit 3D Motion Modeling

📄 arXiv: 2504.21855v2 📥 PDF

作者: Qihao Liu, Ju He, Qihang Yu, Liang-Chieh Chen, Alan Yuille

分类: cs.CV

发布日期: 2025-04-30 (更新: 2026-01-08)

备注: TMLR camera-ready version. Project Page: https://revision-video.github.io/


💡 一句话要点

ReVision:通过显式3D运动建模优化视频扩散模型,提升复杂运动生成质量。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视频生成 扩散模型 3D运动建模 运动一致性 参数化模型

📋 核心要点

  1. 现有视频生成模型在处理复杂运动和交互时面临挑战,难以保证运动的真实性和连贯性。
  2. ReVision通过将参数化的3D模型知识融入视频扩散模型,显式地建模和优化视频中的3D运动。
  3. 实验表明,ReVision在Stable Video Diffusion上显著提升了运动保真度和连贯性,甚至超越了更大规模的模型。

📝 摘要(中文)

近年来,视频生成技术取得了显著进展。然而,在生成复杂运动和交互方面仍然存在挑战。为了解决这些问题,我们提出了ReVision,一个即插即用的框架,它将参数化的3D模型知识显式地集成到预训练的条件视频生成模型中,从而显著增强了其生成具有复杂运动和交互的高质量视频的能力。具体来说,ReVision包括三个阶段。首先,使用视频扩散模型生成粗略的视频。接下来,我们从粗略的视频中提取一组2D和3D特征,以构建一个以3D对象为中心的表示,然后通过我们提出的参数化运动先验模型对其进行细化,以生成精确的3D运动序列。最后,将此细化的运动序列作为附加条件反馈到同一视频扩散模型中,从而能够生成运动一致的视频,即使在涉及复杂动作和交互的场景中也是如此。我们在Stable Video Diffusion上验证了我们方法的有效性,其中ReVision显著提高了运动保真度和连贯性。值得注意的是,仅使用15亿个参数,它甚至在复杂视频生成方面优于具有超过130亿个参数的最新视频生成模型。我们的结果表明,通过结合3D运动知识,即使是相对较小的视频扩散模型也可以生成具有更高真实感和可控性的复杂运动和交互,从而为物理上合理的视频生成提供了一种有希望的解决方案。

🔬 方法详解

问题定义:现有视频生成方法难以准确建模复杂的3D运动和交互,导致生成的视频在运动上不真实、不连贯。尤其是在涉及多个对象交互的场景中,问题更加突出。现有方法缺乏对底层3D结构的理解,难以保证生成视频的物理合理性。

核心思路:ReVision的核心思路是将显式的3D运动建模融入到视频扩散模型中。通过提取和细化视频中的3D运动信息,并将其作为附加条件反馈给扩散模型,从而引导模型生成更真实、更连贯的视频。这种方法利用了3D运动的先验知识,提高了模型对复杂运动的理解和生成能力。

技术框架:ReVision框架包含三个主要阶段:1) 粗略视频生成:使用预训练的视频扩散模型生成初始的粗略视频。2) 3D运动细化:从粗略视频中提取2D和3D特征,构建3D对象中心表示,并使用参数化的运动先验模型进行细化,生成精确的3D运动序列。3) 运动一致性视频生成:将细化的3D运动序列作为附加条件,输入到视频扩散模型中,生成运动一致的最终视频。

关键创新:ReVision的关键创新在于显式地将3D运动建模融入到视频扩散模型中。与以往隐式学习运动信息的方法不同,ReVision直接提取和优化3D运动参数,从而更好地控制和生成复杂运动。参数化的运动先验模型是另一个创新点,它能够有效地细化3D运动序列,提高运动的准确性和连贯性。

关键设计:ReVision使用预训练的Stable Video Diffusion作为基础视频扩散模型。3D运动细化阶段使用了参数化的运动先验模型,该模型可能包含可学习的参数,用于约束和优化3D运动序列。具体的损失函数设计未知,但可能包括运动平滑性损失、对象交互损失等,以保证生成的运动的物理合理性。2D和3D特征提取的具体方法也未知,可能使用了现有的姿态估计或3D重建技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReVision在Stable Video Diffusion上进行了验证,实验结果表明,ReVision显著提高了运动保真度和连贯性。更重要的是,ReVision仅使用15亿个参数,就在复杂视频生成方面超越了具有超过130亿个参数的SOTA模型,证明了其高效性和有效性。这些结果表明,通过结合3D运动知识,即使是相对较小的视频扩散模型也可以生成高质量的复杂运动视频。

🎯 应用场景

ReVision具有广泛的应用前景,包括游戏开发、电影制作、虚拟现实、增强现实等领域。它可以用于生成具有复杂运动和交互的虚拟角色、场景和动画,提高内容创作的效率和质量。此外,ReVision还可以应用于机器人控制、自动驾驶等领域,帮助机器人更好地理解和预测周围环境的运动。

📄 摘要(原文)

In recent years, video generation has seen significant advancements. However, challenges still persist in generating complex motions and interactions. To address these challenges, we introduce ReVision, a plug-and-play framework that explicitly integrates parameterized 3D model knowledge into a pretrained conditional video generation model, significantly enhancing its ability to generate high-quality videos with complex motion and interactions. Specifically, ReVision consists of three stages. First, a video diffusion model is used to generate a coarse video. Next, we extract a set of 2D and 3D features from the coarse video to construct a 3D object-centric representation, which is then refined by our proposed parameterized motion prior model to produce an accurate 3D motion sequence. Finally, this refined motion sequence is fed back into the same video diffusion model as additional conditioning, enabling the generation of motion-consistent videos, even in scenarios involving complex actions and interactions. We validate the effectiveness of our approach on Stable Video Diffusion, where ReVision significantly improves motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even outperforms a state-of-the-art video generation model with over 13B parameters on complex video generation by a substantial margin. Our results suggest that, by incorporating 3D motion knowledge, even a relatively small video diffusion model can generate complex motions and interactions with greater realism and controllability, offering a promising solution for physically plausible video generation.