HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation
作者: Yuxin Wen, Qing Shuai, Di Kang, Jing Li, Cheng Wen, Yue Qian, Ningxin Jiao, Changhai Chen, Weijie Chen, Yiran Wang, Jinkun Guo, Dongyue An, Han Liu, Yanyu Tong, Chao Zhang, Qing Guo, Juan Chen, Qiao Zhang, Youyi Zhang, Zihao Yao, Cheng Zhang, Hong Duan, Xiaoping Wu, Qi Chen, Fei Cheng, Liang Dong, Peng He, Hao Zhang, Jiaxin Lin, Chao Zhang, Zhongyi Fan, Yifan Li, Zhichao Hu, Yuhong Liu, Linus, Jie Jiang, Xiaolong Li, Linchao Bao
分类: cs.CV, cs.AI, cs.GR
发布日期: 2025-12-29
备注: Github: see https://github.com/Tencent-Hunyuan/HY-Motion-1.0
💡 一句话要点
HY-Motion 1.0:扩展Flow Matching模型至十亿参数规模,实现文本驱动的3D人体动作生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到动作生成 3D人体动作 Diffusion Transformer Flow Matching 大规模预训练 强化学习 动作捕捉 运动生成
📋 核心要点
- 现有文本到动作生成模型在指令遵循和动作质量方面存在不足,难以满足实际应用需求。
- HY-Motion 1.0 通过扩展 DiT-based flow matching 模型至十亿参数规模,并采用全阶段训练范式,提升了指令遵循能力和动作质量。
- 该模型在超过 200 个运动类别上实现了最广泛的覆盖,并在开源基准上取得了显著的性能提升。
📝 摘要(中文)
HY-Motion 1.0 是一系列先进的大规模动作生成模型,能够从文本描述生成 3D 人体动作。该模型首次成功地将基于 Diffusion Transformer (DiT) 的 flow matching 模型扩展到动作生成领域中的十亿参数规模,提供了显著优于当前开源基准的指令遵循能力。该模型引入了一个全面的全阶段训练范式,包括超过 3,000 小时的运动数据的大规模预训练、400 小时精选数据的高质量微调,以及来自人类反馈和奖励模型的强化学习,以确保与文本指令的精确对齐和高质量的运动。该框架由我们细致的数据处理流程支持,该流程执行严格的运动清理和字幕添加。因此,我们的模型实现了最广泛的覆盖范围,跨越 6 个主要类别的 200 多个运动类别。我们将 HY-Motion 1.0 开源,以促进未来的研究,并加速 3D 人体运动生成模型向商业成熟的过渡。
🔬 方法详解
问题定义:现有文本到动作生成模型在生成高质量、符合文本描述的3D人体动作方面存在挑战。痛点在于模型规模较小,难以捕捉复杂的动作模式和文本指令的细微差别,同时缺乏有效的数据处理和训练策略,导致生成动作的质量和多样性不足。
核心思路:HY-Motion 1.0的核心思路是扩展模型规模,采用Diffusion Transformer (DiT)架构,并结合Flow Matching技术,从而提升模型的表达能力和生成质量。此外,通过大规模预训练、高质量微调和强化学习等全阶段训练范式,确保模型能够精确地理解文本指令并生成高质量的动作。
技术框架:HY-Motion 1.0的整体框架包括以下几个主要阶段:1) 大规模预训练:在超过3000小时的运动数据上进行预训练,学习通用的动作模式。2) 高质量微调:在400小时的精选数据上进行微调,提升模型对特定文本指令的理解和动作生成能力。3) 强化学习:利用人类反馈和奖励模型进行强化学习,进一步优化生成动作的质量和与文本指令的对齐程度。该框架还包括一个细致的数据处理流程,用于运动清理和字幕添加。
关键创新:HY-Motion 1.0最重要的创新点在于首次成功地将基于DiT的Flow Matching模型扩展到动作生成领域的十亿参数规模。这使得模型能够捕捉更复杂的动作模式和文本指令的细微差别,从而生成更高质量的动作。此外,全阶段训练范式也是一个重要的创新,它确保了模型能够精确地理解文本指令并生成高质量的动作。
关键设计:HY-Motion 1.0的关键设计包括:1) 采用Diffusion Transformer (DiT)架构,利用Transformer的强大表达能力进行动作生成。2) 使用Flow Matching技术,将生成过程建模为一个连续的概率流,从而提升生成动作的质量和多样性。3) 设计了大规模预训练、高质量微调和强化学习等全阶段训练范式,确保模型能够精确地理解文本指令并生成高质量的动作。4) 开发了细致的数据处理流程,用于运动清理和字幕添加,从而提升数据的质量和模型的训练效果。
🖼️ 关键图片
📊 实验亮点
HY-Motion 1.0 在文本到动作生成任务上取得了显著的性能提升。通过大规模预训练和高质量微调,该模型在指令遵循能力和动作质量方面均优于现有的开源基准。该模型能够生成跨越 6 个主要类别的 200 多个运动类别,实现了最广泛的动作覆盖。
🎯 应用场景
HY-Motion 1.0 在虚拟现实、游戏开发、动画制作、机器人控制等领域具有广泛的应用前景。它可以用于生成逼真的人体动作,提升用户体验,降低开发成本。未来,该技术有望应用于智能康复、远程协作等领域,为人们的生活带来更多便利。
📄 摘要(原文)
We present HY-Motion 1.0, a series of state-of-the-art, large-scale, motion generation models capable of generating 3D human motions from textual descriptions. HY-Motion 1.0 represents the first successful attempt to scale up Diffusion Transformer (DiT)-based flow matching models to the billion-parameter scale within the motion generation domain, delivering instruction-following capabilities that significantly outperform current open-source benchmarks. Uniquely, we introduce a comprehensive, full-stage training paradigm -- including large-scale pretraining on over 3,000 hours of motion data, high-quality fine-tuning on 400 hours of curated data, and reinforcement learning from both human feedback and reward models -- to ensure precise alignment with the text instruction and high motion quality. This framework is supported by our meticulous data processing pipeline, which performs rigorous motion cleaning and captioning. Consequently, our model achieves the most extensive coverage, spanning over 200 motion categories across 6 major classes. We release HY-Motion 1.0 to the open-source community to foster future research and accelerate the transition of 3D human motion generation models towards commercial maturity.