VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

📄 arXiv: 2502.02492v2 📥 PDF

作者: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin

分类: cs.CV

发布日期: 2025-02-04 (更新: 2025-05-26)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

VideoJAM:通过联合表观-运动表征增强视频模型中的运动生成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视频生成 运动建模 表观建模 联合表征学习 自监督学习

📋 核心要点

  1. 现有视频生成模型在捕捉真实世界运动方面存在困难,主要原因是像素重建目标偏重表观保真度。
  2. VideoJAM通过学习联合表观-运动表征,并利用内部引导机制,为视频生成器注入有效的运动先验。
  3. VideoJAM在运动连贯性方面超越了现有模型,同时提升了生成视频的视觉质量,且易于集成到现有框架。

📝 摘要(中文)

尽管生成视频模型最近取得了显著进展,但它们仍然难以捕捉真实世界的运动、动力学和物理规律。我们发现,这种局限性源于传统的像素重建目标,该目标使模型偏向于表观保真度,而牺牲了运动连贯性。为了解决这个问题,我们引入了VideoJAM,这是一个新颖的框架,通过鼓励模型学习联合表观-运动表征,从而向视频生成器灌输有效的运动先验。VideoJAM由两个互补的单元组成。在训练期间,我们扩展了目标,以从单个学习的表征中预测生成的像素及其对应的运动。在推理期间,我们引入了内部引导机制,该机制通过利用模型自身不断发展的运动预测作为动态引导信号,来引导生成朝着连贯的运动方向发展。值得注意的是,我们的框架可以应用于任何视频模型,只需进行最小的调整,无需修改训练数据或缩放模型。VideoJAM在运动连贯性方面取得了最先进的性能,超越了极具竞争力的专有模型,同时也提高了生成视频的感知视觉质量。这些发现强调,表观和运动可以是互补的,并且当有效地整合时,可以提高视频生成的视觉质量和连贯性。

🔬 方法详解

问题定义:现有视频生成模型在生成具有真实感和连贯性的运动方面存在困难。传统的像素重建损失函数使得模型更关注生成清晰的图像,而忽略了运动的合理性和物理规律,导致生成的视频在时间维度上不连贯,缺乏真实世界的动态特性。

核心思路:VideoJAM的核心思路是通过显式地建模运动信息,并将其与表观信息相结合,从而引导视频生成模型学习更真实的运动模式。具体来说,VideoJAM鼓励模型从单个学习的表征中同时预测生成的像素和对应的运动,从而建立表观和运动之间的联系。此外,VideoJAM还引入了一种内部引导机制,利用模型自身的运动预测作为动态引导信号,进一步提高运动的连贯性。

技术框架:VideoJAM包含两个主要组成部分:联合表观-运动表征学习和内部引导机制。在训练阶段,模型不仅需要重建输入视频的像素,还需要预测视频中物体的运动信息(例如光流)。通过这种方式,模型可以学习到同时包含表观和运动信息的联合表征。在推理阶段,内部引导机制利用模型自身的运动预测来指导生成过程。具体来说,模型会根据当前生成的帧预测下一帧的运动,然后利用该运动信息来调整下一帧的生成,从而保证运动的连贯性。

关键创新:VideoJAM的关键创新在于它显式地建模了运动信息,并将其与表观信息相结合,从而克服了传统像素重建损失函数的局限性。与现有方法相比,VideoJAM不需要额外的运动数据或复杂的后处理步骤,就可以显著提高视频生成的运动连贯性。此外,VideoJAM的内部引导机制是一种新颖的自监督学习方法,可以有效地利用模型自身的预测来提高生成质量。

关键设计:VideoJAM可以应用于任何基于像素重建的视频生成模型。在训练阶段,需要添加一个额外的运动预测损失函数,例如光流损失或运动向量损失。内部引导机制可以通过在生成过程中迭代地应用运动预测和调整来实现。具体的网络结构和参数设置取决于所使用的基础视频生成模型。论文中没有明确说明具体的损失函数权重和网络结构细节,可能需要根据具体应用进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VideoJAM在多个视频生成数据集上取得了显著的性能提升。实验结果表明,VideoJAM在运动连贯性方面超越了现有的最先进模型,包括一些专有模型。此外,VideoJAM还提高了生成视频的感知视觉质量,使得生成的视频更加逼真和自然。具体的性能指标和对比结果可以在论文的实验部分找到。

🎯 应用场景

VideoJAM具有广泛的应用前景,包括视频编辑、游戏开发、虚拟现实和电影制作等领域。它可以用于生成更逼真、更具吸引力的视频内容,例如创建虚拟场景、生成特效和修复损坏的视频。此外,VideoJAM还可以用于训练更智能的视频分析模型,例如运动识别和行为分析。

📄 摘要(原文)

Despite tremendous recent progress, generative video models still struggle to capture real-world motion, dynamics, and physics. We show that this limitation arises from the conventional pixel reconstruction objective, which biases models toward appearance fidelity at the expense of motion coherence. To address this, we introduce VideoJAM, a novel framework that instills an effective motion prior to video generators, by encouraging the model to learn a joint appearance-motion representation. VideoJAM is composed of two complementary units. During training, we extend the objective to predict both the generated pixels and their corresponding motion from a single learned representation. During inference, we introduce Inner-Guidance, a mechanism that steers the generation toward coherent motion by leveraging the model's own evolving motion prediction as a dynamic guidance signal. Notably, our framework can be applied to any video model with minimal adaptations, requiring no modifications to the training data or scaling of the model. VideoJAM achieves state-of-the-art performance in motion coherence, surpassing highly competitive proprietary models while also enhancing the perceived visual quality of the generations. These findings emphasize that appearance and motion can be complementary and, when effectively integrated, enhance both the visual quality and the coherence of video generation. Project website: https://hila-chefer.github.io/videojam-paper.github.io/