HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation

作者: Bingzi Zhang, Kaisi Guan, Ruihua Song

分类: cs.CV

发布日期: 2026-04-28

备注: Accepted to the 2026 IEEE International Conference on Multimedia and Expo (ICME 2026)

💡 一句话要点

提出HuM-Eval以解决人类动作视频评估的挑战

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人类动作生成 视频质量评估 视觉语言模型 细粒度分析 3D运动评估

📋 核心要点

现有视频生成模型在评估生成的人类动作视频质量时，主要依赖全局统计，忽视了细节，导致评估结果与人类主观偏好不一致。
HuM-Eval框架采用粗到细的评估策略，首先进行全局质量评估，然后通过2D和3D分析进行细粒度验证，确保评估的全面性和准确性。
HuM-Eval在实验中实现了58.2%的平均人类相关性，显著优于现有基线，展示了其在视频生成质量评估中的有效性。

📝 摘要（中文）

近年来，视频生成模型发展迅速，其中自然人类动作的生成至关重要。然而，准确评估生成的人类动作视频质量仍然是一个重大挑战。现有评估指标主要关注全局场景统计，往往忽视细粒度的人类细节，导致无法与人类主观偏好对齐。为此，我们提出了HuM-Eval，一个新的人本评估框架，采用粗到细的策略。具体而言，我们的框架首先利用视觉语言模型进行全局视频质量的粗略评估，然后通过2D姿态验证解剖正确性，并使用3D人类动作评估运动稳定性。大量实验表明，HuM-Eval的平均人类相关性达到58.2%，超越了现有的最先进基线。此外，我们还推出了HuM-Bench，一个包含1000个多样化提示的综合基准，并对现有的文本到视频模型进行了详细评估，为下一代人类动作生成铺平了道路。

🔬 方法详解

问题定义：本论文旨在解决生成的人类动作视频质量评估的不足，现有方法主要关注全局场景，缺乏对细节的关注，导致评估结果与人类主观感受不符。

核心思路：HuM-Eval框架采用粗到细的评估策略，首先利用视觉语言模型进行全局视频质量的粗略评估，随后通过2D姿态和3D动作分析进行细粒度的验证，以确保评估的全面性和准确性。

技术框架：HuM-Eval的整体架构分为两个主要阶段：第一阶段是使用视觉语言模型进行粗略的全局质量评估，第二阶段则是通过2D姿态和3D运动分析进行细致的解剖和运动稳定性验证。

关键创新：HuM-Eval的核心创新在于其粗到细的评估策略，结合了视觉语言模型和运动分析，能够更全面地捕捉人类动作的细节，与现有方法相比，提供了更符合人类主观偏好的评估结果。

关键设计：在设计中，采用了特定的损失函数来优化评估的准确性，同时在2D和3D分析中使用了标准化的姿态和运动稳定性指标，以确保评估的一致性和可靠性。

🖼️ 关键图片

📊 实验亮点

HuM-Eval在实验中实现了58.2%的平均人类相关性，显著优于现有最先进的基线，展示了其在细粒度人类动作评估中的有效性。此外，HuM-Bench基准的推出为后续的文本到视频模型评估提供了丰富的数据支持。

🎯 应用场景

HuM-Eval框架的潜在应用领域包括动画制作、游戏开发和虚拟现实等领域，能够为生成自然人类动作的视频提供更准确的评估标准。这一研究不仅提升了视频生成模型的质量评估能力，还为未来的研究提供了新的基准和方向，推动了人类动作生成技术的发展。

📄 摘要（原文）

Video generation models have developed rapidly in recent years, where generating natural human motion plays a pivotal role. However, accurately evaluating the quality of generated human motion video remains a significant challenge. Existing evaluation metrics primarily focus on global scene statistics, often overlooking fine-grained human details and consequently failing to align with human subjective preference. To bridge this gap, we propose HuM-Eval, a novel human-centric evaluation framework that adopts a coarse-to-fine strategy. Specifically, our framework first utilizes a Vision Language Model to perform a coarse assessment of global video quality. It then proceeds to a fine-grained analysis, using 2D pose to verify anatomical correctness and 3D human motion to evaluate motion stability. Extensive experiments demonstrate that HuM-Eval achieves an average human correlation of 58.2%, outperforming state-of-the-art baselines. Furthermore, we introduce HuM-Bench, a comprehensive benchmark comprising 1,000 diverse prompts, and conduct a detailed evaluation of existing text-to-video models, paving the way for next-generation human motion generation.

HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理