Diffusion Model-based Activity Completion for AI Motion Capture from Videos

📄 arXiv: 2505.21566v1 📥 PDF

作者: Gao Huayu, Huang Tengjiu, Ye Xiaolong, Tsuyoshi Okita

分类: cs.CV, cs.LG

发布日期: 2025-05-27

备注: 32 pages, 16 figures


💡 一句话要点

提出基于扩散模型的动作补全方法,用于AI视频动作捕捉中生成自然连续的动作

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: AI动作捕捉 动作补全 扩散模型 运动生成 虚拟人

📋 核心要点

  1. 现有AI动作捕捉依赖完整视频序列,无法生成超出观察范围的动作,限制了其在虚拟人等领域的应用。
  2. 提出基于扩散模型的动作补全方法,通过生成互补运动序列,弥合动作片段间的缺失转换,实现平滑连续的动作。
  3. 实验表明,该方法在Human3.6M数据集上取得了有竞争力的结果,模型尺寸更小,并能生成更自然连贯的运动。

📝 摘要(中文)

基于AI的动作捕捉技术是一种新兴技术,为传统动作捕捉系统提供了一种经济高效的替代方案。然而,目前基于AI的动作捕捉方法完全依赖于观察到的视频序列,类似于传统的动作捕捉。这意味着所有的人类动作都必须是预定义的,并且不可能进行观察序列之外的运动。为了解决这个限制,我们的目标是将AI动作捕捉应用于虚拟人,这需要超出观察序列的灵活动作。我们假设虽然训练数据中存在许多动作片段,但它们之间的转换可能缺失。为了弥合这些差距,我们提出了一种基于扩散模型的动作补全技术,该技术生成互补的人类运动序列,确保平滑和连续的运动。通过引入门控模块和位置-时间嵌入模块,我们的方法在Human3.6M数据集上取得了有竞争力的结果。实验结果表明:(1)MDC-Net在ADE、FDE和MMADE方面优于现有方法,但在MMFDE方面略逊一筹;(2)与HumanMAC(28.40M)相比,MDC-Net的模型尺寸更小(16.84M);(3)MDC-Net生成更自然和连贯的运动序列。此外,我们还提出了一种从人类运动序列中提取传感器数据(包括加速度和角速度)的方法。

🔬 方法详解

问题定义:论文旨在解决AI动作捕捉中,由于依赖完整视频序列而无法生成超出观察范围动作的问题。现有方法的痛点在于,它们无法处理动作片段之间的缺失转换,导致生成的动作不自然或不连续,限制了其在需要灵活动作的虚拟人等领域的应用。

核心思路:论文的核心思路是利用扩散模型生成互补的人类运动序列,以填补动作片段之间的空白,从而实现平滑和连续的动作。通过学习动作片段的分布,扩散模型可以生成合理的过渡动作,使得整体动作序列更加自然和流畅。

技术框架:该方法主要包含以下几个模块:1) 动作片段编码器:用于提取输入动作片段的特征表示。2) 扩散模型:用于学习动作片段的分布并生成互补的运动序列。3) 门控模块:用于控制生成动作与原始动作的融合程度,保证动作的连贯性。4) 位置-时间嵌入模块:用于编码动作序列的位置和时间信息,帮助扩散模型更好地理解动作的上下文关系。整体流程是,首先将输入的动作片段通过编码器提取特征,然后将特征输入到扩散模型中生成互补的运动序列,最后通过门控模块将生成的动作与原始动作融合,得到完整的动作序列。

关键创新:该论文的关键创新在于将扩散模型应用于动作补全任务,并提出了门控模块和位置-时间嵌入模块。扩散模型能够生成高质量的互补运动序列,而门控模块和位置-时间嵌入模块则进一步提高了生成动作的连贯性和自然性。与现有方法相比,该方法能够生成超出观察范围的动作,并且生成的动作更加自然和流畅。

关键设计:论文中使用了标准的扩散模型架构,并针对动作补全任务进行了优化。门控模块采用sigmoid函数作为激活函数,用于控制生成动作与原始动作的融合程度。位置-时间嵌入模块采用正弦函数和余弦函数对位置和时间信息进行编码。损失函数包括扩散模型的重构损失和对抗损失,用于提高生成动作的质量和多样性。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MDC-Net在Human3.6M数据集上取得了优异的性能,在ADE、FDE和MMADE指标上优于现有方法,模型尺寸仅为HumanMAC的16.84M,显著降低了计算成本。同时,MDC-Net能够生成更自然和连贯的运动序列,提升了动作捕捉的真实感。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、动画制作等领域。通过AI动作捕捉和动作补全技术,可以低成本、高效率地生成逼真自然的虚拟人物动作,提升用户体验。未来,该技术有望应用于机器人控制、运动分析等更广泛的领域,实现人机交互的智能化。

📄 摘要(原文)

AI-based motion capture is an emerging technology that offers a cost-effective alternative to traditional motion capture systems. However, current AI motion capture methods rely entirely on observed video sequences, similar to conventional motion capture. This means that all human actions must be predefined, and movements outside the observed sequences are not possible. To address this limitation, we aim to apply AI motion capture to virtual humans, where flexible actions beyond the observed sequences are required. We assume that while many action fragments exist in the training data, the transitions between them may be missing. To bridge these gaps, we propose a diffusion-model-based action completion technique that generates complementary human motion sequences, ensuring smooth and continuous movements. By introducing a gate module and a position-time embedding module, our approach achieves competitive results on the Human3.6M dataset. Our experimental results show that (1) MDC-Net outperforms existing methods in ADE, FDE, and MMADE but is slightly less accurate in MMFDE, (2) MDC-Net has a smaller model size (16.84M) compared to HumanMAC (28.40M), and (3) MDC-Net generates more natural and coherent motion sequences. Additionally, we propose a method for extracting sensor data, including acceleration and angular velocity, from human motion sequences.