HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation

📄 arXiv: 2604.25361v1 📥 PDF

作者: Bingzi Zhang, Kaisi Guan, Ruihua Song

分类: cs.CV

发布日期: 2026-04-28

备注: Accepted to the 2026 IEEE International Conference on Multimedia and Expo (ICME 2026)


💡 一句话要点

提出HuM-Eval以解决人类动作视频评估的挑战

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人类动作生成 视频质量评估 视觉语言模型 细粒度分析 3D运动评估

📋 核心要点

  1. 现有视频生成模型在评估生成的人类动作视频质量时,主要依赖全局统计,忽视了细节,导致评估结果与人类主观偏好不一致。
  2. HuM-Eval框架采用粗到细的评估策略,首先进行全局质量评估,然后通过2D和3D分析进行细粒度验证,确保评估的全面性和准确性。
  3. HuM-Eval在实验中实现了58.2%的平均人类相关性,显著优于现有基线,展示了其在视频生成质量评估中的有效性。

📝 摘要(中文)

近年来,视频生成模型发展迅速,其中自然人类动作的生成至关重要。然而,准确评估生成的人类动作视频质量仍然是一个重大挑战。现有评估指标主要关注全局场景统计,往往忽视细粒度的人类细节,导致无法与人类主观偏好对齐。为此,我们提出了HuM-Eval,一个新的人本评估框架,采用粗到细的策略。具体而言,我们的框架首先利用视觉语言模型进行全局视频质量的粗略评估,然后通过2D姿态验证解剖正确性,并使用3D人类动作评估运动稳定性。大量实验表明,HuM-Eval的平均人类相关性达到58.2%,超越了现有的最先进基线。此外,我们还推出了HuM-Bench,一个包含1000个多样化提示的综合基准,并对现有的文本到视频模型进行了详细评估,为下一代人类动作生成铺平了道路。

🔬 方法详解

问题定义:本论文旨在解决生成的人类动作视频质量评估的不足,现有方法主要关注全局场景,缺乏对细节的关注,导致评估结果与人类主观感受不符。

核心思路:HuM-Eval框架采用粗到细的评估策略,首先利用视觉语言模型进行全局视频质量的粗略评估,随后通过2D姿态和3D动作分析进行细粒度的验证,以确保评估的全面性和准确性。

技术框架:HuM-Eval的整体架构分为两个主要阶段:第一阶段是使用视觉语言模型进行粗略的全局质量评估,第二阶段则是通过2D姿态和3D运动分析进行细致的解剖和运动稳定性验证。

关键创新:HuM-Eval的核心创新在于其粗到细的评估策略,结合了视觉语言模型和运动分析,能够更全面地捕捉人类动作的细节,与现有方法相比,提供了更符合人类主观偏好的评估结果。

关键设计:在设计中,采用了特定的损失函数来优化评估的准确性,同时在2D和3D分析中使用了标准化的姿态和运动稳定性指标,以确保评估的一致性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HuM-Eval在实验中实现了58.2%的平均人类相关性,显著优于现有最先进的基线,展示了其在细粒度人类动作评估中的有效性。此外,HuM-Bench基准的推出为后续的文本到视频模型评估提供了丰富的数据支持。

🎯 应用场景

HuM-Eval框架的潜在应用领域包括动画制作、游戏开发和虚拟现实等领域,能够为生成自然人类动作的视频提供更准确的评估标准。这一研究不仅提升了视频生成模型的质量评估能力,还为未来的研究提供了新的基准和方向,推动了人类动作生成技术的发展。

📄 摘要(原文)

Video generation models have developed rapidly in recent years, where generating natural human motion plays a pivotal role. However, accurately evaluating the quality of generated human motion video remains a significant challenge. Existing evaluation metrics primarily focus on global scene statistics, often overlooking fine-grained human details and consequently failing to align with human subjective preference. To bridge this gap, we propose HuM-Eval, a novel human-centric evaluation framework that adopts a coarse-to-fine strategy. Specifically, our framework first utilizes a Vision Language Model to perform a coarse assessment of global video quality. It then proceeds to a fine-grained analysis, using 2D pose to verify anatomical correctness and 3D human motion to evaluate motion stability. Extensive experiments demonstrate that HuM-Eval achieves an average human correlation of 58.2%, outperforming state-of-the-art baselines. Furthermore, we introduce HuM-Bench, a comprehensive benchmark comprising 1,000 diverse prompts, and conduct a detailed evaluation of existing text-to-video models, paving the way for next-generation human motion generation.