MoAlign: Motion-Centric Representation Alignment for Video Diffusion Models
作者: Aritra Bhowmik, Denis Korzhenkov, Cees G. M. Snoek, Amirhossein Habibian, Mohsen Ghafoorian
分类: cs.CV
发布日期: 2025-10-21
💡 一句话要点
MoAlign:面向视频扩散模型,提出运动中心表征对齐方法,提升时序一致性和物理合理性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)
关键词: 视频扩散模型 运动表征学习 表征对齐 光流预测 时序一致性
📋 核心要点
- 现有文本到视频扩散模型在生成时序连贯和物理合理的运动方面存在不足,因为它们对复杂运动的理解不够。
- MoAlign 提出了一种运动中心的对齐框架,通过学习解耦的运动子空间,使扩散模型能够内化运动知识。
- 实验结果表明,MoAlign 提高了视频扩散模型在物理常识方面的性能,同时保持了对文本提示的遵循。
📝 摘要(中文)
文本到视频的扩散模型已经能够生成高质量的视频,但常常无法生成时间上连贯和物理上合理的运动。一个关键原因是模型对自然视频中复杂运动的理解不足。最近的研究通过将扩散模型的特征与预训练视频编码器的特征对齐来解决这个问题。然而,这些编码器将视频外观和动态混合到纠缠的特征中,限制了这种对齐的好处。本文提出了一种运动中心的对齐框架,该框架从预训练的视频编码器中学习一个解耦的运动子空间。该子空间经过优化以预测真实的光流,确保它捕获真实的运动动态。然后,我们将文本到视频扩散模型的潜在特征与这个新的子空间对齐,使生成模型能够内化运动知识并生成更合理的视频。经验评估表明,我们的方法提高了最先进的视频扩散模型中的物理常识,同时保留了对文本提示的遵循,这在 VideoPhy、VideoPhy2、VBench 和 VBench-2.0 以及用户研究中得到了证明。
🔬 方法详解
问题定义:当前文本到视频的扩散模型在生成视频时,难以保证生成内容的运动在时间上的一致性和物理上的合理性。现有的对齐方法依赖于预训练的视频编码器,但这些编码器提取的特征往往混合了外观和运动信息,导致对齐效果不佳。
核心思路:MoAlign 的核心在于学习一个解耦的运动子空间,该子空间专注于捕获视频中的运动信息,并与视频的外观信息分离。通过将扩散模型的特征与这个运动子空间对齐,可以使模型更好地理解和生成真实的运动。
技术框架:MoAlign 的整体框架包括以下几个主要步骤:1) 使用预训练的视频编码器提取视频特征;2) 从视频特征中学习一个解耦的运动子空间,该子空间通过预测光流进行优化;3) 将文本到视频扩散模型的潜在特征与学习到的运动子空间对齐。
关键创新:MoAlign 的关键创新在于提出了运动中心的表征对齐方法,通过学习解耦的运动子空间,实现了对视频运动信息的更精确建模。与现有方法相比,MoAlign 能够更好地分离视频的外观和运动信息,从而提高视频生成质量。
关键设计:运动子空间的学习通过优化一个损失函数来实现,该损失函数鼓励子空间预测的光流与真实光流之间的差异最小化。对齐过程可能涉及使用额外的神经网络层来将扩散模型的特征映射到运动子空间。具体的网络结构和参数设置在论文中详细描述,但此处未知。
🖼️ 关键图片
📊 实验亮点
MoAlign 在 VideoPhy、VideoPhy2、VBench 和 VBench-2.0 等数据集上进行了评估,并与现有方法进行了比较。实验结果表明,MoAlign 显著提高了视频扩散模型在物理常识方面的性能,同时保持了对文本提示的遵循。用户研究也表明,MoAlign 生成的视频在视觉质量和运动合理性方面更受用户青睐。具体的性能提升幅度未知。
🎯 应用场景
MoAlign 的潜在应用领域包括视频编辑、游戏开发、电影制作和虚拟现实等。该研究可以用于生成更逼真、更符合物理规律的视频内容,提升用户体验。未来,该技术可以进一步扩展到其他视频生成任务,例如视频修复、视频风格迁移等,具有广阔的应用前景。
📄 摘要(原文)
Text-to-video diffusion models have enabled high-quality video synthesis, yet often fail to generate temporally coherent and physically plausible motion. A key reason is the models' insufficient understanding of complex motions that natural videos often entail. Recent works tackle this problem by aligning diffusion model features with those from pretrained video encoders. However, these encoders mix video appearance and dynamics into entangled features, limiting the benefit of such alignment. In this paper, we propose a motion-centric alignment framework that learns a disentangled motion subspace from a pretrained video encoder. This subspace is optimized to predict ground-truth optical flow, ensuring it captures true motion dynamics. We then align the latent features of a text-to-video diffusion model to this new subspace, enabling the generative model to internalize motion knowledge and generate more plausible videos. Our method improves the physical commonsense in a state-of-the-art video diffusion model, while preserving adherence to textual prompts, as evidenced by empirical evaluations on VideoPhy, VideoPhy2, VBench, and VBench-2.0, along with a user study.