MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations

📄 arXiv: 2410.13790v1 📥 PDF

作者: Liang Xu, Shaoyang Hua, Zili Lin, Yifan Liu, Feipeng Ma, Yichao Yan, Xin Jin, Xiaokang Yang, Wenjun Zeng

分类: cs.CV

发布日期: 2024-10-17

🔗 代码/项目: GITHUB


💡 一句话要点

MotionBank:构建大规模视频动作基准,用于解耦的规则驱动型动作描述生成。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 运动模型 视频动作识别 数据集构建 规则驱动标注 人体运动生成

📋 核心要点

  1. 现有运动模型受限于数据规模小、文本描述成本高,且忽略了上下文中人与环境的交互运动。
  2. MotionBank整合大规模视频动作数据集,并设计算法自动生成解耦的、基于规则的文本描述。
  3. 实验表明MotionBank能有效支持人体运动生成、上下文运动生成和运动理解等任务。

📝 摘要(中文)

本文旨在解决如何构建和评估大规模运动模型(LMM)的问题。LMM的最终目标是作为通用运动相关任务(例如,人体运动生成)的基础模型,并具备可解释性和泛化能力。尽管最近LMM相关工作取得了进展,但仍受限于小规模运动数据和昂贵的文本描述。此外,先前的运动基准主要关注纯粹的身体运动,忽略了上下文中普遍存在的运动,即人与人、物体和场景的交互。为了解决这些限制,我们整合了大规模视频动作数据集作为知识库,构建了MotionBank,它包含13个视频动作数据集,124万个运动序列和1.329亿帧自然且多样的人体运动。与实验室捕获的运动不同,真实场景中以人为中心的视频包含丰富的上下文运动。为了促进更好的运动文本对齐,我们还精心设计了一种运动字幕生成算法,通过运动学特征为每个运动自动生成基于规则、无偏且解耦的文本描述。大量实验表明,我们的MotionBank有益于人体运动生成、上下文运动生成和运动理解等通用运动相关任务。视频运动以及基于规则的文本注释可以作为更大LMM的有效替代方案。我们的数据集、代码和基准将在https://github.com/liangxuy/MotionBank上公开发布。

🔬 方法详解

问题定义:现有的大规模运动模型(LMM)研究面临数据规模和标注成本的挑战。已有的运动数据集规模较小,难以训练出泛化能力强的模型。同时,人工标注文本描述成本高昂。此外,现有数据集主要关注孤立的身体运动,缺乏对上下文中人与人、人与物、人与场景交互的建模。

核心思路:本文的核心思路是利用大规模的视频动作数据集,并设计一种自动化的、基于规则的文本描述生成方法,从而降低标注成本,并提供更丰富的上下文信息。通过这种方式,可以构建一个更大规模、更具多样性、且标注成本更低的运动数据集,从而促进LMM的发展。

技术框架:MotionBank的构建主要包含两个阶段:1) 数据收集与整合:收集并整合了13个现有的视频动作数据集,形成一个包含124万个运动序列和1.329亿帧的大规模数据集。2) 自动文本描述生成:设计了一种基于运动学特征的规则驱动的文本描述生成算法,该算法能够自动为每个运动序列生成解耦的、无偏的文本描述。

关键创新:该论文的关键创新在于提出了一种自动化的、基于规则的文本描述生成方法。与人工标注相比,该方法能够显著降低标注成本,并保证标注的一致性和无偏性。此外,通过解耦的文本描述,可以更好地捕捉运动的各个方面,从而提高模型的可解释性。

关键设计:文本描述生成算法的关键设计在于利用运动学特征来生成文本描述。具体来说,该算法首先提取运动序列的运动学特征,例如关节角度、速度和加速度等。然后,基于这些特征,利用预定义的规则生成相应的文本描述。这些规则是根据对运动的理解和分析而设计的,旨在捕捉运动的关键方面,例如动作类型、参与者、对象和场景等。具体的规则设计细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MotionBank能够有效提升人体运动生成、上下文运动生成和运动理解等任务的性能。具体性能数据未知,但论文强调MotionBank及其自动生成的文本描述可以作为更大规模LMM的有效替代方案,这暗示了其在资源受限情况下的实用价值。

🎯 应用场景

MotionBank可广泛应用于人体运动生成、上下文运动生成、运动理解等领域。例如,可以用于生成逼真的人体动画、训练智能体与环境交互、以及开发智能视频监控系统。该数据集和基准的发布将促进运动相关领域的研究和发展,并为开发更强大的LMM奠定基础。

📄 摘要(原文)

In this paper, we tackle the problem of how to build and benchmark a large motion model (LMM). The ultimate goal of LMM is to serve as a foundation model for versatile motion-related tasks, e.g., human motion generation, with interpretability and generalizability. Though advanced, recent LMM-related works are still limited by small-scale motion data and costly text descriptions. Besides, previous motion benchmarks primarily focus on pure body movements, neglecting the ubiquitous motions in context, i.e., humans interacting with humans, objects, and scenes. To address these limitations, we consolidate large-scale video action datasets as knowledge banks to build MotionBank, which comprises 13 video action datasets, 1.24M motion sequences, and 132.9M frames of natural and diverse human motions. Different from laboratory-captured motions, in-the-wild human-centric videos contain abundant motions in context. To facilitate better motion text alignment, we also meticulously devise a motion caption generation algorithm to automatically produce rule-based, unbiased, and disentangled text descriptions via the kinematic characteristics for each motion. Extensive experiments show that our MotionBank is beneficial for general motion-related tasks of human motion generation, motion in-context generation, and motion understanding. Video motions together with the rule-based text annotations could serve as an efficient alternative for larger LMMs. Our dataset, codes, and benchmark will be publicly available at https://github.com/liangxuy/MotionBank.