NextMotionQA: Benchmarking and Judging Human Motion Understanding with Vision-Language Models
作者: Yong Cao, Chuqiao Li, Xianghui Xie, Gerard Pons-Moll, Andreas Geiger
分类: cs.CV, cs.CL
发布日期: 2026-06-03
备注: 23 pages, 8 figures, 9 tables
💡 一句话要点
提出NextMotionQA以解决人类动作理解评估问题
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人类动作理解 视觉-语言模型 基准测试 多模态任务 细粒度评估
📋 核心要点
- 现有的人类动作理解基准测试存在语义粒度粗糙和难度未区分等问题,无法有效评估模型的表现。
- 本文提出NextMotionQA基准,通过视觉-语言模型实现半自动化的数据集构建,包含多项互补任务。
- 对十二个VLM的评估显示,模型在粗略标准下与专家评分一致,但在细粒度判断上表现不佳,揭示了其局限性。
📝 摘要(中文)
可靠的人类动作理解评估对于推动具身人工智能、机器人技术和动画的发展至关重要。然而,现有基准测试存在语义粒度粗糙、难度未区分、注释质量有限和答案模糊等问题,无法有效诊断当前模型的不足。为此,本文提出了NextMotionQA,这是一个综合性基准,利用视觉-语言模型(VLMs)构建半自动化、专家验证的数据集。NextMotionQA包含多项互补任务:多项选择问答、视频字幕生成和细粒度错误修正。每个任务在三个核心语义轴上系统化结构,并分为三个任务复杂度级别。对十二个代表性VLM的广泛评估揭示了在传统单任务评估下无法察觉的关键能力差距和弱点。
🔬 方法详解
问题定义:本文旨在解决现有基准测试在评估人类动作理解时的不足,包括语义粒度粗糙、难度未区分和注释质量低等问题。
核心思路:提出NextMotionQA基准,通过引入视觉-语言模型(VLMs)进行半自动化的数据集构建,并设计多项互补任务以全面评估模型能力。
技术框架:NextMotionQA的整体架构包括三个主要任务:多项选择问答、视频字幕生成和细粒度错误修正,任务在三个核心语义轴上系统化,并分为三个复杂度级别。
关键创新:最重要的创新在于通过VLMs实现专家验证的数据集构建,系统化的任务设计使得评估更加全面,能够揭示模型在不同复杂度下的表现差异。
关键设计:在任务设计中,采用了多层次的复杂度划分,并在细粒度错误修正中引入了特定的损失函数和评估标准,以确保评估的准确性和有效性。
📊 实验亮点
实验结果表明,VLM在粗略标准下与专家评分的Cohen's κ达到0.70,但在细粒度判断上仅为0.10,显示出模型在复杂任务下的表现显著下降。这一发现揭示了VLM在不同评估标准下的能力差异,强调了NextMotionQA的有效性。
🎯 应用场景
NextMotionQA的研究成果在多个领域具有潜在应用价值,包括机器人技术中的人类动作理解、动画制作中的动作生成和虚拟现实中的交互设计。通过提供更可靠的评估标准,能够推动这些领域的技术进步和应用落地。
📄 摘要(原文)
Reliable evaluation of human motion understanding is fundamental to advancing embodied AI, robotics, and animation. However, existing benchmarks suffer from coarse semantic granularity, undifferentiated difficulty, limited annotation quality, and pervasive answer ambiguity, leaving them unable to diagnose where current models fail. To bridge this gap, we introduce NextMotionQA, a comprehensive benchmark that leverages vision-language models (VLMs) for semi-automated, expert-verified dataset. NextMotionQA features three complementary tasks: multiple-choice question answering, video captioning, and fine-grained error correction. Each task is systematically structured across three core semantic axes and stratified into three task complexity levels. Our extensive evaluation of twelve representative VLMs uncovers critical capability gaps and weakness that remain invisible under conventional, single-task evaluations. In a complementary direction, recent work has begun using VLMs as judges for text-to-motion evaluation; we ask whether they show the same degradation under harder tasks. We find that VLMs align strongly with expert ratings on coarse criteria (Cohen's κ=0.70) but break down on fine-grained, part-level judgment (κ=0.10), validating the paradigm in its strong regime while clarifying its limits.