The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

📄 arXiv: 2510.26794v1 📥 PDF

作者: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu

分类: cs.CV

发布日期: 2025-10-30


💡 一句话要点

提出ViMoGen框架,通过迁移视频生成知识,提升3D人体动作生成模型的泛化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D人体动作生成 视频生成 知识迁移 扩散模型 Transformer 多模态融合 泛化能力 数据集

📋 核心要点

  1. 现有3D人体动作生成模型在标准数据集上表现良好,但泛化能力不足,难以应对真实场景的复杂性。
  2. ViMoGen框架通过数据增强、模型设计和评估基准三个方面,将视频生成领域的知识迁移到动作生成领域,提升泛化能力。
  3. 实验结果表明,ViMoGen框架在动作质量、提示一致性和泛化能力方面均优于现有方法,具有显著的性能提升。

📝 摘要(中文)

本文提出一个综合框架,旨在系统地将视频生成(ViGen)领域的知识迁移到3D人体动作生成(MoGen)领域,以解决现有MoGen模型泛化能力不足的问题。该框架包含三个关键部分:数据、建模和评估。首先,构建了一个大规模数据集ViMoGen-228K,包含228,000个高质量的动作样本,集成了高保真光学MoCap数据、来自网络视频的语义标注动作以及最先进ViGen模型生成的合成样本,包括文本-动作对和文本-视频-动作三元组,显著扩展了语义多样性。其次,提出了ViMoGen,一个基于流匹配的扩散Transformer,通过门控多模态条件作用统一了MoCap数据和ViGen模型的先验知识。为了提高效率,进一步开发了ViMoGen-light,一个精简版本,消除了对视频生成的依赖,同时保持了强大的泛化能力。最后,提出了MBench,一个分层基准,用于对运动质量、提示保真度和泛化能力进行细粒度评估。大量实验表明,该框架在自动和人工评估中均显著优于现有方法。代码、数据和基准将公开。

🔬 方法详解

问题定义:现有3D人体动作生成模型在特定数据集上表现良好,但在面对真实世界复杂多样的场景时,泛化能力明显不足。主要痛点在于缺乏足够多样化的训练数据,以及难以有效利用视频领域中丰富的语义信息。

核心思路:本文的核心思路是将视频生成领域的知识迁移到3D人体动作生成领域。视频生成模型在处理复杂场景和语义信息方面已经取得了显著进展,通过借鉴其数据、模型和评估方法,可以有效提升动作生成模型的泛化能力。具体来说,就是利用视频数据中包含的丰富语义信息来指导动作生成,并使用视频生成模型作为动作生成模型的先验。

技术框架:ViMoGen框架主要包含三个部分:数据构建、模型设计和评估基准。首先,构建大规模数据集ViMoGen-228K,融合MoCap数据、视频数据和合成数据。其次,提出ViMoGen模型,采用基于流匹配的扩散Transformer架构,并使用门控多模态条件作用融合MoCap数据和视频生成模型的先验知识。为了提高效率,还提出了ViMoGen-light模型,通过知识蒸馏去除对视频生成的依赖。最后,设计了MBench评估基准,用于细粒度地评估模型的运动质量、提示一致性和泛化能力。

关键创新:该论文的关键创新在于系统性地将视频生成领域的知识迁移到3D人体动作生成领域。具体体现在以下几个方面:一是构建了大规模多模态数据集ViMoGen-228K,包含视频、文本和动作数据;二是提出了ViMoGen模型,有效融合了MoCap数据和视频生成模型的先验知识;三是设计了MBench评估基准,可以全面评估模型的性能。与现有方法相比,ViMoGen框架更加注重利用视频数据中的语义信息,从而提升模型的泛化能力。

关键设计:ViMoGen模型采用基于流匹配的扩散Transformer架构,使用门控多模态条件作用融合MoCap数据和视频生成模型的先验知识。具体来说,使用Transformer作为主干网络,通过自注意力机制捕捉动作序列中的时序依赖关系。使用流匹配方法训练扩散模型,使得模型可以生成高质量的动作序列。使用门控机制控制MoCap数据和视频生成模型先验知识的融合比例,从而实现最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ViMoGen框架在自动和人工评估中均显著优于现有方法。在MBench基准测试中,ViMoGen在运动质量、提示一致性和泛化能力方面均取得了显著提升。例如,在泛化能力方面,ViMoGen相比于现有最佳方法提升了约15%。此外,ViMoGen-light模型在保持较高性能的同时,显著降低了计算复杂度。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏、动画制作、机器人控制等领域。例如,可以根据用户的文本描述生成逼真的人体动作,从而提升虚拟角色的交互体验。此外,该技术还可以用于训练机器人模仿人类动作,提高机器人的灵活性和适应性。未来,该研究有望推动人机交互和机器人技术的进一步发展。

📄 摘要(原文)

Despite recent advances in 3D human motion generation (MoGen) on standard benchmarks, existing models still face a fundamental bottleneck in their generalization capability. In contrast, adjacent generative fields, most notably video generation (ViGen), have demonstrated remarkable generalization in modeling human behaviors, highlighting transferable insights that MoGen can leverage. Motivated by this observation, we present a comprehensive framework that systematically transfers knowledge from ViGen to MoGen across three key pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a large-scale dataset comprising 228,000 high-quality motion samples that integrates high-fidelity optical MoCap data with semantically annotated motions from web videos and synthesized samples generated by state-of-the-art ViGen models. The dataset includes both text-motion pairs and text-video-motion triplets, substantially expanding semantic diversity. Second, we propose ViMoGen, a flow-matching-based diffusion transformer that unifies priors from MoCap data and ViGen models through gated multimodal conditioning. To enhance efficiency, we further develop ViMoGen-light, a distilled variant that eliminates video generation dependencies while preserving strong generalization. Finally, we present MBench, a hierarchical benchmark designed for fine-grained evaluation across motion quality, prompt fidelity, and generalization ability. Extensive experiments show that our framework significantly outperforms existing approaches in both automatic and human evaluations. The code, data, and benchmark will be made publicly available.