A Cross-Dataset Study for Text-based 3D Human Motion Retrieval

📄 arXiv: 2405.16909v1 📥 PDF

作者: Léore Bensabath, Mathis Petrovich, Gül Varol

分类: cs.CV

发布日期: 2024-05-27


💡 一句话要点

提出基于文本的3D人体动作检索跨数据集泛化研究,揭示数据集偏差。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 3D人体动作检索 跨数据集泛化 数据集偏差 SMPL模型 文本增强

📋 核心要点

  1. 现有文本驱动的3D人体动作检索研究,缺乏跨数据集的泛化能力,主要受限于数据集特定的人体表示。
  2. 论文采用统一的SMPL人体模型,实现跨数据集的训练和测试,从而研究数据集偏差对模型性能的影响。
  3. 实验结果表明,现有数据集存在偏差,文本增强可以缓解但无法完全消除。同时实现了BABEL数据集上的零样本动作识别。

📝 摘要(中文)

本文研究了基于文本的3D人体动作检索,特别关注跨数据集的泛化能力。由于数据集特定的人体表示等实际原因,现有工作通常在同一数据集的划分上进行训练和测试。本文对所有数据集采用统一的SMPL人体格式,从而能够在一个数据集上训练,在另一个数据集上测试,以及在数据集的组合上进行训练。结果表明,在HumanML3D、KIT Motion-Language和BABEL等标准文本-动作基准测试中存在数据集偏差。文本增强在一定程度上缩小了领域差距,但差距仍然存在。此外,本文还在BABEL上提供了第一个零样本动作识别结果,训练过程中未使用类别动作标签,为未来的研究开辟了新途径。

🔬 方法详解

问题定义:现有基于文本的3D人体动作检索方法,通常在单个数据集上进行训练和测试,忽略了不同数据集之间存在的偏差。由于不同数据集使用不同的人体骨骼表示,模型难以泛化到新的数据集上。因此,如何提高模型在不同数据集上的泛化能力是一个关键问题。

核心思路:本文的核心思路是使用统一的人体表示(SMPL模型)来消除不同数据集之间的人体结构差异,从而使得模型能够更容易地学习到文本和动作之间的通用关系。通过跨数据集的训练和测试,可以有效地评估模型对数据集偏差的鲁棒性。

技术框架:整体框架包括数据预处理、模型训练和评估三个主要阶段。首先,将所有数据集中的人体动作数据转换为SMPL格式。然后,使用文本编码器和动作编码器将文本描述和SMPL动作序列分别编码为向量表示。接着,使用对比学习或其他损失函数来训练模型,使得相似的文本和动作在嵌入空间中距离更近。最后,在不同的数据集上进行测试,评估模型的泛化能力。

关键创新:本文最重要的创新点在于对跨数据集泛化能力的关注,以及通过统一SMPL人体表示来消除数据集偏差的方法。此外,本文还探索了文本增强技术来进一步缩小领域差距,并首次在BABEL数据集上实现了零样本动作识别。

关键设计:关键设计包括:1) 使用SMPL模型作为统一的人体表示;2) 采用文本增强技术,如随机替换、同义词替换等,来增加文本的多样性;3) 使用对比学习损失函数,鼓励相似的文本和动作在嵌入空间中聚集;4) 设计零样本动作识别方法,利用文本描述的语义信息进行动作分类。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在跨数据集测试中,模型性能显著下降,验证了数据集偏差的存在。文本增强技术可以部分缓解这一问题,但仍存在较大的性能差距。此外,本文首次在BABEL数据集上实现了零样本动作识别,为未来的研究提供了新的思路和基线。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、人机交互等领域。例如,用户可以通过自然语言描述,快速检索到所需的3D人体动作,从而提高内容创作的效率。此外,该研究也有助于开发更智能的机器人,使其能够理解人类的指令并执行相应的动作。

📄 摘要(原文)

We provide results of our study on text-based 3D human motion retrieval and particularly focus on cross-dataset generalization. Due to practical reasons such as dataset-specific human body representations, existing works typically benchmarkby training and testing on partitions from the same dataset. Here, we employ a unified SMPL body format for all datasets, which allows us to perform training on one dataset, testing on the other, as well as training on a combination of datasets. Our results suggest that there exist dataset biases in standard text-motion benchmarks such as HumanML3D, KIT Motion-Language, and BABEL. We show that text augmentations help close the domain gap to some extent, but the gap remains. We further provide the first zero-shot action recognition results on BABEL, without using categorical action labels during training, opening up a new avenue for future research.