OpenT2M: No-frill Motion Generation with Open-source,Large-scale, High-quality Data

📄 arXiv: 2603.18623v1 📥 PDF

作者: Bin Cao, Sipeng Zheng, Hao Luo, Boyuan Li, Jing Liu, Zongqing Lu

分类: cs.CV, cs.AI

发布日期: 2026-03-19


💡 一句话要点

OpenT2M:开源、大规模、高质量的文本到动作生成数据集与MonoFrill模型

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本到动作生成 人体运动 数据集 动作捕捉 Transformer 运动重建 零样本学习

📋 核心要点

  1. 现有文本到动作生成模型因数据集规模小、多样性有限,在未见过的文本描述上表现不佳。
  2. 论文提出OpenT2M数据集和MonoFrill模型,利用大规模高质量数据和2D-PRQ动作标记器提升性能。
  3. 实验表明,OpenT2M提高了现有模型的泛化能力,2D-PRQ实现了更好的重建和零样本性能。

📝 摘要(中文)

本文提出OpenT2M,一个百万级别、高质量、开源的动作数据集,包含超过2800小时的人体运动数据。该数据集通过物理可行性验证和多粒度过滤进行严格的质量控制,并具有详细的秒级文本标注。此外,还开发了一个自动生成长时序序列的流程,从而能够生成复杂的运动。基于OpenT2M,本文提出了MonoFrill,一个预训练的动作模型,无需复杂的结构设计或技巧即可实现出色的文本到动作生成效果。其核心组件是2D-PRQ,一种新颖的动作标记器,通过将人体划分为生物学部分来捕获时空依赖关系。实验表明,OpenT2M显著提高了现有文本到动作模型的泛化能力,而2D-PRQ实现了卓越的重建效果和强大的零样本性能。OpenT2M和MonoFrill有望通过解决长期存在的数据质量和基准测试挑战来推进文本到动作生成领域的发展。

🔬 方法详解

问题定义:文本到动作生成(T2M)旨在根据文本描述生成逼真的人体运动。现有T2M模型受限于数据集规模和多样性,难以泛化到新的文本描述,导致生成质量下降。现有方法往往依赖复杂的设计和技巧来弥补数据不足,但效果有限。

核心思路:论文的核心思路是通过构建一个大规模、高质量的开源数据集OpenT2M来解决数据瓶颈问题。同时,设计一个简洁有效的模型MonoFrill,避免过度依赖复杂的网络结构和技巧,而是充分利用高质量数据进行学习。2D-PRQ动作标记器旨在有效捕捉人体运动的时空依赖关系。

技术框架:整体框架包含两个主要部分:OpenT2M数据集的构建和MonoFrill模型的训练。OpenT2M数据集的构建包括数据收集、物理可行性验证、多粒度过滤和文本标注等步骤。MonoFrill模型使用Transformer架构,以文本作为输入,通过2D-PRQ将运动数据编码为离散的token序列,然后使用Transformer进行序列到序列的建模。

关键创新:主要创新点包括:1) OpenT2M数据集,其规模和质量远超现有数据集;2) 2D-PRQ动作标记器,能够有效地捕捉人体运动的时空依赖关系,将连续的运动数据转换为离散的token序列,便于Transformer模型的处理。与现有方法相比,2D-PRQ更关注人体生物结构,从而更好地建模运动的内在规律。

关键设计:2D-PRQ将人体骨骼划分为多个生物学相关的部分,例如头部、躯干、四肢等。然后,对每个部分进行量化,将连续的运动数据转换为离散的token。具体而言,使用了Product Quantization (PQ) 和 Residual Quantization (RQ) 的组合 (PRQ) 来进行量化,以提高量化精度。损失函数主要包括重建损失和对抗损失,用于保证生成运动的逼真度和多样性。Transformer模型的具体参数设置(层数、隐藏层大小、注意力头数等)未知,可能需要参考论文附录或代码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于OpenT2M训练的T2M模型在泛化能力上得到了显著提升。2D-PRQ在运动重建任务上取得了优异的性能,并且在零样本文本到动作生成任务上表现出强大的能力。具体的性能数据和对比基线需要在论文中查找,但总体而言,OpenT2M和MonoFrill为T2M领域带来了实质性的进步。

🎯 应用场景

该研究成果可广泛应用于动画制作、游戏开发、虚拟现实、机器人控制等领域。高质量的文本到动作生成模型能够根据文本指令自动生成逼真的人体运动,从而降低人工成本,提高创作效率。例如,可以根据剧本自动生成动画角色的运动,或者根据用户的语音指令控制机器人的动作。

📄 摘要(原文)

Text-to-motion (T2M) generation aims to create realistic human movements from text descriptions, with promising applications in animation and robotics. Despite recent progress, current T2M models perform poorly on unseen text descriptions due to the small scale and limited diversity of existing motion datasets. To address this problem, we introduce OpenT2M, a million-level, high-quality, and open-source motion dataset containing over 2800 hours of human motion. Each sequence undergoes rigorous quality control through physical feasibility validation and multi-granularity filtering, with detailed second-wise text annotations. We also develop an automated pipeline for creating long-horizon sequences, enabling complex motion generation. Building upon OpenT2M, we introduce MonoFrill, a pretrained motion model that achieves compelling T2M results without complicated designs or technique tricks as "frills". Its core component is 2D-PRQ, a novel motion tokenizer that captures spatiotemporal dependencies by dividing the human body into biology parts. Experiments show that OpenT2M significantly improves generalization of existing T2M models, while 2D-PRQ achieves superior reconstruction and strong zero-shot performance. We expect OpenT2M and MonoFrill will advance the T2M field by addressing longstanding data quality and benchmarking challenges.