VMBench: A Benchmark for Perception-Aligned Video Motion Generation

作者: Xinran Ling, Chen Zhu, Meiqi Wu, Hangyu Li, Xiaokun Feng, Cundian Yang, Aiming Hao, Jiashu Zhu, Jiahong Wu, Xiangxiang Chu

分类: cs.CV

发布日期: 2025-03-13 (更新: 2025-03-16)

🔗 代码/项目: GITHUB

💡 一句话要点

VMBench：一个感知对齐的视频运动生成评估基准

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 视频生成 运动评估 感知对齐 基准测试 LLM 人机验证 运动提示 元信息

📋 核心要点

现有视频运动评估指标与人类感知存在偏差，无法准确反映运动质量。
VMBench通过感知驱动的指标和元信息引导的提示，实现更精准的运动评估。
实验表明，VMBench的指标与人类偏好更一致，Spearman相关性提升显著。

📝 摘要（中文）

视频生成技术发展迅速，评估方法也在不断改进，但评估视频的运动仍然是一个主要的挑战。具体来说，存在两个关键问题：1) 当前的运动指标与人类感知并不完全一致；2) 现有的运动提示类型有限。基于这些发现，我们推出了VMBench——一个全面的视频运动基准，它具有感知对齐的运动指标，并包含最多样化的运动类型。VMBench具有以下几个吸引人的特性：1) 感知驱动的运动评估指标，我们基于人类对运动视频评估的感知，确定了五个维度，并开发了细粒度的评估指标，从而更深入地了解模型在运动质量方面的优势和劣势。2) 元信息引导的运动提示生成，一种结构化的方法，提取元信息，利用LLM生成多样化的运动提示，并通过人机验证对其进行改进，从而形成一个涵盖六个关键动态场景维度的多层次提示库。3) 人类对齐的验证机制，我们提供人类偏好标注来验证我们的基准，我们的指标在Spearman相关性方面比基线方法平均提高了35.3%。这是首次从人类感知对齐的角度评估视频中运动的质量。此外，我们即将发布VMBench，为评估和推进运动生成模型设定新的标准。

🔬 方法详解

问题定义：现有视频生成模型的运动评估方法存在两个主要痛点。一是现有的运动评估指标与人类的感知不一致，无法准确反映视频运动的真实质量。二是现有的运动提示类型有限，难以全面评估模型在各种运动场景下的生成能力。

核心思路：VMBench的核心思路是构建一个感知对齐的视频运动评估基准，该基准包含感知驱动的运动评估指标和多样化的运动提示。通过引入人类感知作为评估标准，并利用元信息引导的提示生成方法，VMBench旨在更准确、更全面地评估视频生成模型在运动方面的性能。

技术框架：VMBench的整体框架包括三个主要模块：1) 感知驱动的运动评估指标：基于人类对运动视频评估的感知，确定五个维度（具体维度未知），并开发细粒度的评估指标。2) 元信息引导的运动提示生成：提取元信息，利用LLM生成多样化的运动提示，并通过人机验证进行改进，形成多层次提示库。3) 人类对齐的验证机制：通过人类偏好标注来验证基准的有效性。

关键创新：VMBench最重要的创新点在于其感知对齐的运动评估方法。它首次将人类感知纳入视频运动评估体系，使得评估结果更符合人类的直观感受。此外，元信息引导的提示生成方法也为生成多样化的运动提示提供了新的思路。

关键设计：关于关键设计，论文中提到利用LLM生成运动提示，并通过人机验证进行改进，但未提供LLM的具体选择、提示工程的细节以及人机验证的具体流程。感知驱动的运动评估指标的具体维度和计算方法也未详细说明，这些是未来研究可以深入探索的方向。

🖼️ 关键图片

📊 实验亮点

VMBench的实验结果表明，其提出的评估指标与人类偏好具有更高的一致性。具体而言，VMBench的指标在Spearman相关性方面比基线方法平均提高了35.3%，这表明VMBench能够更准确地反映人类对视频运动质量的感知。

🎯 应用场景

VMBench可应用于视频生成模型的运动质量评估、运动控制算法的性能测试、以及视频编辑和特效制作等领域。通过提供更准确、更符合人类感知的运动评估，VMBench有助于提升视频生成模型的运动质量，并推动相关技术的发展。

📄 摘要（原文）

Video generation has advanced rapidly, improving evaluation methods, yet assessing video's motion remains a major challenge. Specifically, there are two key issues: 1) current motion metrics do not fully align with human perceptions; 2) the existing motion prompts are limited. Based on these findings, we introduce VMBench--a comprehensive Video Motion Benchmark that has perception-aligned motion metrics and features the most diverse types of motion. VMBench has several appealing properties: 1) Perception-Driven Motion Evaluation Metrics, we identify five dimensions based on human perception in motion video assessment and develop fine-grained evaluation metrics, providing deeper insights into models' strengths and weaknesses in motion quality. 2) Meta-Guided Motion Prompt Generation, a structured method that extracts meta-information, generates diverse motion prompts with LLMs, and refines them through human-AI validation, resulting in a multi-level prompt library covering six key dynamic scene dimensions. 3) Human-Aligned Validation Mechanism, we provide human preference annotations to validate our benchmarks, with our metrics achieving an average 35.3% improvement in Spearman's correlation over baseline methods. This is the first time that the quality of motion in videos has been evaluated from the perspective of human perception alignment. Additionally, we will soon release VMBench at https://github.com/GD-AIGC/VMBench, setting a new standard for evaluating and advancing motion generation models.

VMBench: A Benchmark for Perception-Aligned Video Motion Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理