MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

📄 arXiv: 2406.19680v2 📥 PDF

作者: Yuang Zhang, Jiaxi Gu, Li-Wen Wang, Han Wang, Junqi Cheng, Yuefeng Zhu, Fangyuan Zou

分类: cs.CV, cs.AI, cs.MM

发布日期: 2024-06-28 (更新: 2025-06-27)

备注: ICML 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MimicMotion:基于置信度感知姿态引导的高质量人体运动视频生成

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频生成 人体运动 姿态引导 置信度感知 长视频生成

📋 核心要点

  1. 视频生成面临可控性、视频长度和细节丰富度等挑战,限制了其应用。
  2. MimicMotion通过置信度感知的姿态引导、区域损失放大和渐进式潜在融合策略,实现高质量、长时序的视频生成。
  3. 实验结果表明,MimicMotion在视频质量和时间一致性方面优于现有方法,并能生成任意长度的视频。

📝 摘要(中文)

近年来,生成式人工智能在图像生成领域取得了显著进展,催生了各种应用。然而,视频生成在可控性、视频长度和细节丰富度等方面仍然面临着相当大的挑战,这阻碍了该技术的应用和普及。本文提出了一个可控的视频生成框架MimicMotion,它可以生成任意长度的高质量视频,模仿特定的运动引导。与以往的方法相比,我们的方法有几个亮点。首先,我们引入了置信度感知的姿态引导,以确保高帧质量和时间平滑性。其次,我们引入了基于姿态置信度的区域损失放大,显著减少了图像失真。最后,为了生成长而流畅的视频,我们提出了一种渐进式潜在融合策略。通过这种方式,我们可以以可接受的资源消耗生成任意长度的视频。通过大量的实验和用户研究,MimicMotion在各个方面都显示出比以前的方法显著的改进。详细的结果和比较可以在我们的项目页面上找到:https://tencent.github.io/MimicMotion。

🔬 方法详解

问题定义:论文旨在解决人体运动视频生成中,现有方法在可控性、视频长度和细节丰富度方面的不足。现有方法难以生成高质量、长时序且能精确模仿特定运动引导的视频,同时容易出现图像失真和时间不连贯的问题。

核心思路:论文的核心思路是利用置信度感知的姿态信息作为引导,结合区域损失放大和渐进式潜在融合策略,从而实现高质量、长时序人体运动视频的生成。通过姿态置信度来调整损失权重,减少图像失真,并利用渐进式融合保证时间上的平滑过渡。

技术框架:MimicMotion框架主要包含三个关键模块:姿态编码器、视频生成器和潜在融合模块。姿态编码器负责将输入的姿态序列编码成潜在表示;视频生成器基于姿态潜在表示生成视频帧;潜在融合模块则用于将多个短视频片段的潜在表示进行融合,从而生成长视频。整体流程是:输入姿态序列 -> 姿态编码 -> 视频帧生成 -> 潜在融合(长视频生成)。

关键创新:论文的关键创新在于以下三点:1) 引入置信度感知的姿态引导,利用姿态检测的置信度来调整生成过程,提高视频质量和时间平滑性。2) 提出基于姿态置信度的区域损失放大,针对姿态不确定的区域,增加损失权重,减少图像失真。3) 设计渐进式潜在融合策略,通过平滑过渡潜在表示,生成长且流畅的视频。

关键设计:在置信度感知姿态引导方面,使用姿态检测器输出的置信度作为权重,调整姿态信息对生成过程的影响。区域损失放大采用加权损失函数,置信度低的区域权重较高。渐进式潜在融合采用滑动窗口的方式,对相邻片段的潜在表示进行加权平均,权重随时间变化,实现平滑过渡。具体的损失函数和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果表明,MimicMotion在生成视频的质量和时间一致性方面显著优于现有方法。通过用户研究,MimicMotion生成的视频在视觉质量和真实感方面获得了更高的评分。此外,MimicMotion能够生成任意长度的视频,并且资源消耗可接受。项目页面提供了详细的实验结果和对比视频。

🎯 应用场景

MimicMotion技术可应用于虚拟现实、游戏开发、电影制作等领域,例如生成逼真的人物动画、创建可控的虚拟角色、以及进行运动分析和康复训练。该技术能够降低视频制作成本,提高内容创作效率,并为用户提供更加个性化和沉浸式的体验。未来,该技术有望进一步扩展到其他类型视频的生成,例如动物、风景等。

📄 摘要(原文)

In recent years, generative artificial intelligence has achieved significant advancements in the field of image generation, spawning a variety of applications. However, video generation still faces considerable challenges in various aspects, such as controllability, video length, and richness of details, which hinder the application and popularization of this technology. In this work, we propose a controllable video generation framework, dubbed MimicMotion, which can generate high-quality videos of arbitrary length mimicking specific motion guidance. Compared with previous methods, our approach has several highlights. Firstly, we introduce confidence-aware pose guidance that ensures high frame quality and temporal smoothness. Secondly, we introduce regional loss amplification based on pose confidence, which significantly reduces image distortion. Lastly, for generating long and smooth videos, we propose a progressive latent fusion strategy. By this means, we can produce videos of arbitrary length with acceptable resource consumption. With extensive experiments and user studies, MimicMotion demonstrates significant improvements over previous approaches in various aspects. Detailed results and comparisons are available on our project page: https://tencent.github.io/MimicMotion .