MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

📄 arXiv: 2509.26391v1 📥 PDF

作者: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang

分类: cs.CV

发布日期: 2025-09-30


💡 一句话要点

MotionRAG:通过检索增强运动先验实现逼真的图像到视频生成

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting)

关键词: 图像到视频生成 运动建模 检索增强 扩散模型 上下文学习 运动迁移 视频编码器

📋 核心要点

  1. 现有图像到视频生成方法难以准确建模复杂的运动,导致生成视频的真实感不足。
  2. MotionRAG通过检索相关视频的运动先验,并进行上下文感知的运动适配,提升生成视频的运动真实性。
  3. 实验表明,MotionRAG在多个领域和不同基础模型上均有显著提升,且具有零样本泛化能力。

📝 摘要(中文)

图像到视频生成技术在扩散模型的推动下取得了显著进展,但生成具有真实运动的视频仍然极具挑战。这种困难源于精确建模运动的复杂性,包括捕捉物理约束、对象交互以及特定领域的动态,这些难以在不同场景中泛化。为了解决这个问题,我们提出了MotionRAG,一个检索增强框架,通过上下文感知的运动适配(CAMA)从相关的参考视频中调整运动先验,从而增强运动的真实感。关键技术创新包括:(i)基于检索的流程,使用视频编码器和专门的重采样器提取高层运动特征,以提取语义运动表示;(ii)通过因果Transformer架构实现的用于运动适配的上下文学习方法;(iii)基于注意力的运动注入适配器,将转移的运动特征无缝集成到预训练的视频扩散模型中。大量实验表明,我们的方法在多个领域和各种基础模型上都取得了显著的改进,并且在推理过程中计算开销可以忽略不计。此外,我们的模块化设计通过简单地更新检索数据库而无需重新训练任何组件,从而实现了对新领域的零样本泛化。这项研究通过有效检索和转移运动先验,促进了真实运动动态的合成,从而增强了视频生成系统的核心能力。

🔬 方法详解

问题定义:图像到视频生成旨在从单张图像生成一段连贯的视频。现有方法在生成逼真运动方面面临挑战,因为运动建模需要捕捉复杂的物理约束、对象交互和领域特定动态,这些因素难以泛化到各种场景。现有方法通常难以生成具有自然和多样化运动的视频。

核心思路:MotionRAG的核心思想是利用检索增强的方式,从大量视频数据中检索与输入图像相关的运动先验,并将这些先验知识融入到视频生成过程中。通过借鉴真实视频的运动模式,可以有效提升生成视频的运动真实感和自然度。这种方法避免了直接建模复杂运动的困难,而是通过学习和迁移现有运动模式来实现。

技术框架:MotionRAG框架主要包含三个模块:(1) 运动检索模块:使用视频编码器提取视频的运动特征,并构建运动数据库。给定输入图像,检索模块从数据库中检索最相关的视频片段。(2) 运动适配模块:使用上下文感知的运动适配(CAMA)方法,将检索到的运动特征与输入图像进行融合,生成适配的运动表示。该模块采用因果Transformer架构,实现运动特征的自适应调整。(3) 运动注入模块:使用基于注意力的运动注入适配器,将适配后的运动特征注入到预训练的视频扩散模型中,引导视频生成过程。

关键创新:MotionRAG的关键创新在于其检索增强的运动先验迁移方法。与直接建模运动的方法不同,MotionRAG通过检索和适配现有视频的运动模式,实现了更高效和更具泛化性的运动建模。上下文感知的运动适配(CAMA)和基于注意力的运动注入适配器是实现运动先验有效迁移的关键技术。此外,该框架的模块化设计使其可以轻松地扩展到新的领域,而无需重新训练任何组件。

关键设计:运动检索模块使用预训练的视频编码器(例如,TimeSformer)提取视频特征。上下文感知的运动适配(CAMA)模块采用因果Transformer架构,利用自注意力机制学习运动特征之间的依赖关系。基于注意力的运动注入适配器使用交叉注意力机制,将适配后的运动特征与视频扩散模型的中间层特征进行融合。损失函数主要包括重构损失和对抗损失,用于保证生成视频的质量和真实感。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MotionRAG在多个数据集上显著优于现有方法。例如,在生成舞蹈视频时,MotionRAG能够生成更流畅和自然的舞蹈动作,显著提升了视频的真实感。定量评估结果显示,MotionRAG在FID和KID等指标上均取得了显著提升,证明了其在运动建模方面的有效性。此外,MotionRAG的零样本泛化能力使其能够应用于新的领域,而无需进行额外的训练。

🎯 应用场景

MotionRAG在视频内容创作、虚拟现实、游戏开发等领域具有广泛的应用前景。它可以用于生成逼真的动画、创建虚拟场景中的自然运动,以及增强游戏角色的动作表现。该研究还有助于开发更智能的视频编辑工具,例如自动添加运动效果、修复视频中的运动瑕疵等。未来,MotionRAG有望成为视频生成领域的重要技术,推动相关产业的发展。

📄 摘要(原文)

Image-to-video generation has made remarkable progress with the advancements in diffusion models, yet generating videos with realistic motion remains highly challenging. This difficulty arises from the complexity of accurately modeling motion, which involves capturing physical constraints, object interactions, and domain-specific dynamics that are not easily generalized across diverse scenarios. To address this, we propose MotionRAG, a retrieval-augmented framework that enhances motion realism by adapting motion priors from relevant reference videos through Context-Aware Motion Adaptation (CAMA). The key technical innovations include: (i) a retrieval-based pipeline extracting high-level motion features using video encoder and specialized resamplers to distill semantic motion representations; (ii) an in-context learning approach for motion adaptation implemented through a causal transformer architecture; (iii) an attention-based motion injection adapter that seamlessly integrates transferred motion features into pretrained video diffusion models. Extensive experiments demonstrate that our method achieves significant improvements across multiple domains and various base models, all with negligible computational overhead during inference. Furthermore, our modular design enables zero-shot generalization to new domains by simply updating the retrieval database without retraining any components. This research enhances the core capability of video generation systems by enabling the effective retrieval and transfer of motion priors, facilitating the synthesis of realistic motion dynamics.