Video Motion Graphs

📄 arXiv: 2503.20218v2 📥 PDF

作者: Haiyang Liu, Zhan Xu, Fa-Ting Hong, Hsin-Ping Huang, Yi Zhou, Yang Zhou

分类: cs.CV

发布日期: 2025-03-26 (更新: 2025-06-03)

备注: 14 pages,10 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出视频运动图,通过条件控制和插帧生成逼真人体运动视频

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视频生成 人体运动 视频插帧 扩散模型 条件控制

📋 核心要点

  1. 现有方法难以生成高质量、符合条件控制的人体运动视频,尤其是在复杂运动场景下,插帧效果不佳。
  2. 提出视频运动图系统,核心是HMInterp模型,通过运动扩散模型和视频帧插值模型相结合的双分支插值方法,实现高质量插帧。
  3. 实验结果表明,该方法在多模态条件人体运动视频生成方面优于现有的生成和检索方法,提升了视频的真实感和运动轨迹的准确性。

📝 摘要(中文)

本文提出了一种名为视频运动图的系统,旨在生成逼真的人体运动视频。该系统利用参考视频和条件信号(如音乐或运动标签)合成新视频。首先,系统检索具有与条件匹配的手势的视频片段,然后生成插值帧以无缝连接片段边界。该方法的核心是HMInterp,一个强大的视频帧插值(VFI)模型,即使对于像跳舞这样复杂的运动场景,也能实现不连续帧的无缝插值。HMInterp i) 采用双分支插值方法,结合用于人体骨骼运动插值的运动扩散模型和用于最终帧生成的基于扩散的视频帧插值模型。ii) 采用条件渐进训练,以有效地利用身份的强弱条件,例如图像和姿势。这些设计确保了高视频纹理质量和准确的运动轨迹。结果表明,我们的视频运动图优于现有的基于生成和检索的方法,用于多模态条件人体运动视频生成。

🔬 方法详解

问题定义:论文旨在解决在给定参考视频和条件信号(如音乐或运动标签)的情况下,生成逼真且符合条件控制的人体运动视频的问题。现有方法在处理复杂运动场景时,插帧效果不佳,难以保证视频的真实感和运动轨迹的准确性。

核心思路:论文的核心思路是利用视频片段检索和帧插值技术,通过检索与条件匹配的视频片段,并使用HMInterp模型生成插值帧,从而无缝连接片段边界。HMInterp模型采用双分支结构,分别处理运动和外观,保证了视频的质量和运动的准确性。

技术框架:整体框架包括三个主要步骤:1) 视频片段检索:根据给定的条件信号(如音乐或运动标签),从视频库中检索匹配的视频片段。2) 运动插值:使用运动扩散模型对人体骨骼运动进行插值,生成平滑的运动轨迹。3) 视频帧插值:使用基于扩散的视频帧插值模型,结合运动插值的结果,生成最终的插值帧,实现视频片段的无缝连接。

关键创新:论文的关键创新在于HMInterp模型的设计,它采用双分支结构,分别处理运动和外观。运动分支使用运动扩散模型进行人体骨骼运动插值,保证了运动轨迹的准确性。外观分支使用基于扩散的视频帧插值模型,生成高质量的视频帧。此外,论文还提出了条件渐进训练方法,有效地利用了身份的强弱条件。

关键设计:HMInterp模型包含运动扩散模型和视频帧插值模型两个分支。运动扩散模型采用Transformer架构,用于预测人体骨骼的运动轨迹。视频帧插值模型采用U-Net架构,用于生成高质量的视频帧。条件渐进训练方法通过逐步增加条件信息的强度,提高模型的泛化能力。损失函数包括L1损失、感知损失和对抗损失,用于优化视频的质量和真实感。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的视频运动图系统在多模态条件人体运动视频生成方面优于现有的生成和检索方法。具体性能数据未知,但从项目页面展示的视频效果来看,生成的视频具有较高的真实感和运动轨迹的准确性,尤其是在处理复杂运动场景时,插帧效果显著提升。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、电影制作等领域,例如,可以根据用户的音乐或舞蹈风格生成个性化的舞蹈视频,或者为游戏角色生成逼真的运动动画。此外,该技术还可以用于视频编辑和修复,例如,可以修复视频中的缺失帧或生成慢动作视频。

📄 摘要(原文)

We present Video Motion Graphs, a system designed to generate realistic human motion videos. Using a reference video and conditional signals such as music or motion tags, the system synthesizes new videos by first retrieving video clips with gestures matching the conditions and then generating interpolation frames to seamlessly connect clip boundaries. The core of our approach is HMInterp, a robust Video Frame Interpolation (VFI) model that enables seamless interpolation of discontinuous frames, even for complex motion scenarios like dancing. HMInterp i) employs a dual-branch interpolation approach, combining a Motion Diffusion Model for human skeleton motion interpolation with a diffusion-based video frame interpolation model for final frame generation. ii) adopts condition progressive training to effectively leverage identity strong and weak conditions, such as images and pose. These designs ensure both high video texture quality and accurate motion trajectory. Results show that our Video Motion Graphs outperforms existing generative- and retrieval-based methods for multi-modal conditioned human motion video generation. Project page can be found at https://h-liu1997.github.io/Video-Motion-Graphs/