Can Pose Transfer Models Generate Realistic Human Motion?

📄 arXiv: 2501.15648v1 📥 PDF

作者: Vaclav Knapp, Matyas Bohacek

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-01-26

备注: Data and code available at https://github.com/matyasbohacek/pose-transfer-human-motion


💡 一句话要点

姿态迁移模型在生成逼真人体运动方面仍有挑战,动作识别准确率有待提高

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 姿态迁移 人体运动生成 用户研究 视频质量评估 动作识别

📋 核心要点

  1. 现有的姿态迁移方法旨在生成时间上一致且完全可控的人体动作视频,其中参考视频中的运动由新的身份重新演绎,但其真实性有待考量。
  2. 该研究通过生成超出训练分布的动作和身份的视频,并进行用户研究,评估了三种最先进的姿态迁移方法的性能。
  3. 实验结果表明,现有姿态迁移模型在动作识别准确率和动作一致性方面表现不佳,且不同方法之间存在差异。

📝 摘要(中文)

本文评估了三种最先进的姿态迁移方法——AnimateAnyone、MagicAnimate和ExAvatar,通过生成具有训练分布之外的动作和身份的视频,并进行参与者研究来评估这些视频的质量。在20种不同的人类动作的受控环境中,研究发现,观看姿态迁移视频的参与者仅在42.92%的时间内正确识别出期望的动作。此外,参与者认为生成视频中的动作与参考(源)视频一致的比例仅为36.46%。这些结果因方法而异:参与者发现基于splatting的ExAvatar比基于扩散的AnimateAnyone和MagicAnimate更一致且更逼真。

🔬 方法详解

问题定义:论文旨在评估现有姿态迁移模型生成逼真人体运动的能力。现有方法虽然能够将参考视频中的动作迁移到新的身份上,但生成的视频在动作识别的准确性和动作与参考视频的一致性方面存在不足,尤其是在处理训练分布之外的动作和身份时。

核心思路:论文的核心思路是通过用户研究来主观评估姿态迁移模型的性能。通过让参与者观看生成的视频,并判断视频中的动作是否与参考视频一致,以及是否能够正确识别动作,从而量化模型的真实感和可控性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择三种代表性的姿态迁移模型:AnimateAnyone、MagicAnimate和ExAvatar。2) 准备包含20种不同人类动作的参考视频。3) 使用选定的姿态迁移模型生成新的视频,其中动作来自参考视频,但身份不同。4) 招募参与者观看生成的视频,并回答关于动作识别和一致性的问题。5) 分析参与者的回答,评估模型的性能。

关键创新:该研究的关键创新在于使用用户研究来评估姿态迁移模型的性能。与传统的客观指标相比,用户研究能够更直接地反映模型生成的视频在人类感知上的真实感和可控性。此外,该研究还比较了不同类型的姿态迁移模型(基于splatting和基于扩散)的性能差异。

关键设计:研究中选择了20种不同的人类动作,以确保评估的全面性。参与者被要求观看生成的视频,并回答关于动作识别和一致性的问题。动作识别问题要求参与者从预定义的动作列表中选择最符合视频内容的动作。一致性问题要求参与者判断生成视频中的动作是否与参考视频一致。研究人员分析了参与者的回答,计算了动作识别准确率和一致性得分,并使用统计方法比较了不同模型之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,三种姿态迁移模型在动作识别准确率和动作一致性方面表现均不佳。参与者仅在42.92%的时间内正确识别出期望的动作,且仅在36.46%的时间内认为生成视频中的动作与参考视频一致。基于splatting的ExAvatar在一致性和真实感方面优于基于扩散的AnimateAnyone和MagicAnimate。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、电影制作等领域,帮助提升虚拟角色的真实感和可控性。通过改进姿态迁移模型,可以更逼真地模拟人类动作,从而增强用户体验。此外,该研究也为姿态迁移模型的设计和评估提供了新的思路。

📄 摘要(原文)

Recent pose-transfer methods aim to generate temporally consistent and fully controllable videos of human action where the motion from a reference video is reenacted by a new identity. We evaluate three state-of-the-art pose-transfer methods -- AnimateAnyone, MagicAnimate, and ExAvatar -- by generating videos with actions and identities outside the training distribution and conducting a participant study about the quality of these videos. In a controlled environment of 20 distinct human actions, we find that participants, presented with the pose-transferred videos, correctly identify the desired action only 42.92% of the time. Moreover, the participants find the actions in the generated videos consistent with the reference (source) videos only 36.46% of the time. These results vary by method: participants find the splatting-based ExAvatar more consistent and photorealistic than the diffusion-based AnimateAnyone and MagicAnimate.