FineMotion: A Dataset and Benchmark with both Spatial and Temporal Annotation for Fine-grained Motion Generation and Editing

📄 arXiv: 2507.19850v1 📥 PDF

作者: Bizhu Wu, Jinheng Xie, Meidan Ding, Zhe Kong, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen

分类: cs.CV

发布日期: 2025-07-26


💡 一句话要点

FineMotion:提出包含时空精细标注的人体动作生成与编辑数据集及基准

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 人体动作生成 细粒度控制 文本驱动 数据集 动作编辑 时空标注 零样本学习

📋 核心要点

  1. 现有文本驱动人体动作生成方法缺乏对身体部位精细动作和时序的建模。
  2. FineMotion数据集通过提供包含身体部位运动细节的文本描述,丰富了动作生成任务的信息。
  3. 实验表明,FineMotion数据集能显著提升文本驱动的细粒度人体动作生成性能,并支持零样本动作编辑。

📝 摘要(中文)

本文针对现有文本驱动人体动作生成方法忽略特定身体部位运动及其时序信息的不足,提出了FineMotion数据集。该数据集包含超过442,000个人体动作片段及其对应的身体部位运动的详细描述,以及约95,000个描述完整动作序列中身体部位运动的详细段落。实验结果表明,FineMotion数据集对于文本驱动的细粒度人体动作生成任务具有重要意义,尤其是在MDM模型上实现了高达+15.3%的Top-3准确率提升。此外,本文还支持一种零样本的细粒度动作编辑流程,该流程侧重于通过文本在空间和时间维度上进行详细编辑。数据集和代码已公开。

🔬 方法详解

问题定义:现有文本驱动的人体动作生成方法通常忽略了对特定身体部位运动细节的精确控制以及动作发生的时间信息。这导致生成的动作不够精细,难以满足对动作细节有较高要求的应用场景。现有方法缺乏足够细粒度标注的数据集来训练和评估模型,限制了模型性能的提升。

核心思路:本文的核心思路是通过构建一个包含大量带有精细时空标注的人体动作数据集,来弥补现有数据集的不足。该数据集不仅包含动作序列,还包含对身体各个部位运动的详细文本描述,从而为模型学习细粒度的动作控制提供了充足的数据支持。通过利用这些详细的文本描述,模型可以更好地理解文本指令,并生成更逼真、更符合要求的动作。

技术框架:FineMotion数据集的构建主要包括以下几个阶段:首先,收集大量的人体动作序列数据。然后,对这些动作序列进行分割,得到大量的动作片段。接着,对每个动作片段以及完整的动作序列,都进行详细的文本描述,描述身体各个部位的运动情况。这些文本描述与动作序列或片段进行关联,形成最终的数据集。此外,论文还提出了基于该数据集的基准测试,用于评估不同模型在细粒度人体动作生成和编辑任务上的性能。

关键创新:FineMotion数据集的关键创新在于其精细的时空标注。与现有数据集相比,FineMotion不仅提供了动作序列,还提供了对身体各个部位运动的详细文本描述,包括运动的空间位置和时间信息。这种精细的标注使得模型能够学习到更细粒度的动作控制,从而生成更逼真、更符合要求的动作。此外,该数据集还支持零样本的细粒度动作编辑,允许用户通过文本指令在空间和时间维度上对动作进行精确修改。

关键设计:FineMotion数据集的文本描述采用了结构化的方式,对身体各个部位的运动情况进行了详细的描述。在基准测试中,论文采用了常用的动作生成评价指标,如FID和Top-K准确率,来评估模型的性能。此外,论文还设计了一种零样本的动作编辑流程,该流程利用文本指令对动作进行精确修改。具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

FineMotion数据集在文本驱动的细粒度人体动作生成任务上取得了显著的性能提升。实验结果表明,在MDM模型上,使用FineMotion数据集进行训练后,Top-3准确率提升了15.3%。此外,该数据集还支持零样本的细粒度动作编辑,允许用户通过文本指令在空间和时间维度上对动作进行精确修改,展示了其在动作编辑方面的潜力。

🎯 应用场景

FineMotion数据集和相关研究成果可广泛应用于虚拟现实、游戏开发、动画制作、机器人控制等领域。例如,可以利用该数据集训练出能够根据文本指令生成逼真人体动作的模型,从而为虚拟角色赋予更丰富的表现力。此外,该数据集还可以用于开发智能康复系统,帮助患者进行个性化的康复训练。未来,该研究有望推动人机交互技术的进步,实现更加自然、流畅的人机交互体验。

📄 摘要(原文)

Generating realistic human motions from textual descriptions has undergone significant advancements. However, existing methods often overlook specific body part movements and their timing. In this paper, we address this issue by enriching the textual description with more details. Specifically, we propose the FineMotion dataset, which contains over 442,000 human motion snippets - short segments of human motion sequences - and their corresponding detailed descriptions of human body part movements. Additionally, the dataset includes about 95k detailed paragraphs describing the movements of human body parts of entire motion sequences. Experimental results demonstrate the significance of our dataset on the text-driven finegrained human motion generation task, especially with a remarkable +15.3% improvement in Top-3 accuracy for the MDM model. Notably, we further support a zero-shot pipeline of fine-grained motion editing, which focuses on detailed editing in both spatial and temporal dimensions via text. Dataset and code available at: CVI-SZU/FineMotion