HumanScore: Benchmarking Human Motions in Generated Videos
作者: Yusu Fang, Tiange Xiang, Tian Tan, Narayan Schuetz, Scott Delp, Li Fei-Fei, Ehsan Adeli
分类: cs.CV
发布日期: 2026-04-22
💡 一句话要点
HumanScore:用于评估AI生成视频中人体运动质量的系统性评测框架
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 视频生成 人体运动评估 运动学 生物力学 时间稳定性 AI评测 姿态估计
📋 核心要点
- 现有视频生成模型缺乏对生成视频中人体运动质量的系统性评估方法。
- HumanScore框架通过定义六个可解释的指标,从运动学、时间稳定性和生物力学角度评估人体运动。
- 实验结果揭示了现有模型在运动生物力学保真度方面的不足,并识别了常见的失败模式。
📝 摘要(中文)
本文提出HumanScore,一个系统性的框架,用于评估AI生成视频中人体运动的质量。随着模型架构、计算能力和数据规模的快速发展,视频生成技术取得了显著进展,生成的内容也越来越逼真。然而,目前还没有方法能够系统地衡量这些系统在渲染人体和运动动态方面的逼真程度。HumanScore定义了六个可解释的指标,涵盖运动学合理性、时间稳定性和生物力学一致性,从而实现超越视觉逼真度的细粒度诊断。通过精心设计的提示,我们引出了一系列不同强度和类型的运动,并评估了由13个最先进模型生成的视频。我们的分析揭示了感知合理性与运动生物力学保真度之间存在持续差距,识别了反复出现的失败模式(例如,时间抖动、解剖学上不合理的姿势和运动漂移),并从定量和物理上有意义的标准中产生了稳健的模型排名。
🔬 方法详解
问题定义:现有视频生成模型在生成人体运动视频时,缺乏系统性的评估方法来衡量运动的真实性和合理性。仅仅依靠视觉上的逼真度是不够的,需要考虑运动学、生物力学等因素。现有方法难以诊断模型在人体运动生成方面的具体问题,例如姿势不合理、运动不稳定等。
核心思路:HumanScore的核心思路是通过定义一系列可解释的指标,从多个维度对生成视频中的人体运动进行评估。这些指标不仅关注视觉上的逼真度,还关注运动的物理合理性和生物力学一致性。通过这些指标,可以对模型的性能进行细粒度的诊断,并识别出常见的失败模式。
技术框架:HumanScore框架包含以下几个主要步骤:1) 设计提示词,引导视频生成模型生成包含特定人体运动的视频。2) 使用姿态估计模型提取视频中每一帧的人体姿态信息。3) 根据提取的姿态信息,计算六个评估指标:运动学合理性、时间稳定性、生物力学一致性等。4) 根据这些指标对不同模型生成的视频进行排序和比较,并分析模型的优缺点。
关键创新:HumanScore的关键创新在于提出了六个可解释的指标,这些指标能够从多个维度评估生成视频中人体运动的质量。这些指标不仅关注视觉上的逼真度,还关注运动的物理合理性和生物力学一致性,从而能够更全面地评估模型的性能。此外,HumanScore还提供了一个系统性的评估框架,可以方便地对不同模型进行比较和分析。
关键设计:HumanScore框架中,六个评估指标的设计是关键。这些指标包括:1) 运动学合理性:衡量姿势是否符合人体运动学原理。2) 时间稳定性:衡量运动是否平滑,是否存在抖动。3) 生物力学一致性:衡量运动是否符合人体生物力学原理。这些指标的具体计算方法需要根据具体的运动类型和姿态信息进行设计。此外,提示词的设计也很重要,需要能够引导模型生成包含特定人体运动的视频。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有视频生成模型在感知合理性方面表现较好,但在运动生物力学保真度方面存在明显不足。HumanScore能够识别出常见的失败模式,例如时间抖动、解剖学上不合理的姿势和运动漂移。通过HumanScore的评估,可以对不同模型进行排序,并为模型改进提供指导。
🎯 应用场景
HumanScore可用于评估和改进视频生成模型在人体运动生成方面的性能,从而提高生成视频的真实感和实用性。该框架还可应用于运动分析、虚拟现实、游戏开发等领域,例如,可以用于评估虚拟角色的运动是否自然流畅,或者用于分析运动员的运动姿势是否正确。
📄 摘要(原文)
Recent advances in model architectures, compute, and data scale have driven rapid progress in video generation, producing increasingly realistic content. Yet, no prior method systematically measures how faithfully these systems render human bodies and motion dynamics. In this paper, we present HumanScore, a systematic framework to evaluate the quality of human motions in AI-generated videos. HumanScore defines six interpretable metrics spanning kinematic plausibility, temporal stability, and biomechanical consistency, enabling fine-grained diagnosis beyond visual realism alone. Through carefully designed prompts, we elicit a diverse set of movements at varying intensities and evaluate videos generated by thirteen state-of-the-art models. Our analysis reveals consistent gaps between perceptual plausibility and motion biomechanical fidelity, identifies recurrent failure modes (e.g., temporal jitter, anatomically implausible poses, and motion drift), and produces robust model rankings from quantitative and physically meaningful criteria.