T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data
作者: Mingdian Liu, Yilin Liu, Gurunandan Krishnan, Karl S Bayer, Bing Zhou
分类: cs.CV
发布日期: 2024-09-20
备注: 10 pages, 4 figures, conference paper
💡 一句话要点
T2M-X:从部分标注数据学习富有表现力的文本到动作生成
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)
关键词: 文本到动作生成 全身运动生成 部分标注学习 VQ-VAE GPT 运动一致性 多模态融合
📋 核心要点
- 现有文本到动作生成方法缺乏对面部表情和手部动作的建模,限制了其在实际生产中的应用。
- T2M-X通过分别训练身体、手部和面部的VQ-VAE,并使用GPT模型进行协调,实现了全身动作的生成。
- 实验结果表明,T2M-X在动作生成质量和身体部位协调性方面均优于现有方法。
📝 摘要(中文)
本文提出了一种名为T2M-X的两阶段方法,用于从部分标注数据中学习富有表现力的文本到动作生成。现有的文本到人体动画生成方法通常只关注身体运动,忽略了面部表情和手部动作,这主要是由于缺乏全面的全身运动数据集。为了解决这个问题,T2M-X在各自高质量的数据源上训练了三个独立的向量量化变分自编码器(VQ-VAE),分别用于身体、手部和面部,以确保高质量的运动输出。此外,还使用了一个多索引生成预训练Transformer(GPT)模型,结合运动一致性损失,用于运动生成以及不同身体部位之间的协调。实验结果表明,T2M-X在定量和定性方面均显著优于基线方法,证明了其在数据集限制下的鲁棒性。
🔬 方法详解
问题定义:现有文本到动作生成方法主要集中在身体运动的生成,忽略了面部表情和手部动作,导致生成的人体动画不够生动和真实。同时,缺乏高质量的全身运动数据集是制约该领域发展的重要因素。已有的全身运动数据集要么存在不同身体部位运动不一致的问题,要么数据质量较低,难以训练出高质量的模型。
核心思路:T2M-X的核心思路是将全身运动生成任务分解为身体、手部和面部三个子任务,分别在高质量的数据集上训练独立的运动编码器。然后,利用一个生成模型来学习不同身体部位之间的运动协调关系,从而生成一致且富有表现力的全身运动。这种分解策略可以有效利用现有的部分标注数据,并避免直接训练端到端模型带来的困难。
技术框架:T2M-X采用两阶段的训练方法。第一阶段,分别训练三个VQ-VAE模型,用于将身体、手部和面部的运动数据编码为离散的运动token。第二阶段,训练一个多索引GPT模型,该模型以文本prompt和身体、手部、面部的运动token作为输入,生成对应的运动序列。为了保证不同身体部位运动的一致性,模型还引入了运动一致性损失。
关键创新:T2M-X的关键创新在于其利用部分标注数据,通过解耦的方式学习全身运动生成。具体来说,它将全身运动分解为身体、手部和面部三个部分,并分别训练独立的VQ-VAE模型。这种解耦的方式可以有效利用现有的高质量数据,并降低了模型训练的难度。此外,多索引GPT模型和运动一致性损失的引入,保证了生成运动的协调性和一致性。
关键设计:VQ-VAE模型用于将连续的运动数据编码为离散的运动token,其作用类似于一个运动词典。GPT模型采用多索引的方式,同时输入身体、手部和面部的运动token,从而学习不同身体部位之间的运动关系。运动一致性损失用于约束生成运动的协调性,例如,确保手部运动与身体运动保持一致。
🖼️ 关键图片
📊 实验亮点
T2M-X在文本到动作生成任务上取得了显著的性能提升。通过定量评估,T2M-X在运动质量和文本相关性指标上均优于现有基线方法。定性结果表明,T2M-X能够生成更加自然、协调且富有表现力的全身运动,包括面部表情和手部动作。实验结果验证了T2M-X在处理部分标注数据方面的有效性和鲁棒性。
🎯 应用场景
T2M-X技术可广泛应用于动画制作、虚拟现实/增强现实(VR/AR)体验、游戏开发等领域。它可以根据文本描述自动生成逼真的人体动画,从而降低动画制作的成本和时间。在VR/AR应用中,可以根据用户的语音或文本输入,实时生成虚拟角色的动作,增强用户的沉浸感和交互性。此外,该技术还可以用于生成个性化的虚拟化身,满足用户在虚拟世界中的社交需求。
📄 摘要(原文)
The generation of humanoid animation from text prompts can profoundly impact animation production and AR/VR experiences. However, existing methods only generate body motion data, excluding facial expressions and hand movements. This limitation, primarily due to a lack of a comprehensive whole-body motion dataset, inhibits their readiness for production use. Recent attempts to create such a dataset have resulted in either motion inconsistency among different body parts in the artificially augmented data or lower quality in the data extracted from RGB videos. In this work, we propose T2M-X, a two-stage method that learns expressive text-to-motion generation from partially annotated data. T2M-X trains three separate Vector Quantized Variational AutoEncoders (VQ-VAEs) for body, hand, and face on respective high-quality data sources to ensure high-quality motion outputs, and a Multi-indexing Generative Pretrained Transformer (GPT) model with motion consistency loss for motion generation and coordination among different body parts. Our results show significant improvements over the baselines both quantitatively and qualitatively, demonstrating its robustness against the dataset limitations.