GENMO: A GENeralist Model for Human MOtion
作者: Jiefeng Li, Jinkun Cao, Haotian Zhang, Davis Rempe, Jan Kautz, Umar Iqbal, Ye Yuan
分类: cs.GR, cs.AI, cs.CV, cs.LG, cs.RO
发布日期: 2025-05-02
备注: Project page: https://research.nvidia.com/labs/dair/genmo/
💡 一句话要点
GENMO:用于人体运动的通用模型,统一运动生成与估计任务
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人体运动建模 运动生成 运动估计 扩散模型 多模态融合
📋 核心要点
- 传统人体运动建模将生成与估计分离,缺乏知识迁移,需要维护多个模型。
- GENMO将运动估计视为约束生成,利用回归与扩散的协同,统一两类任务。
- 引入估计引导训练,利用真实视频数据增强生成多样性,提升模型泛化能力。
📝 摘要(中文)
本文提出GENMO,一个用于人体运动的通用模型,旨在统一运动生成和估计任务。传统方法将运动生成(例如,从文本、音频或关键帧生成运动)和运动估计(例如,从视频重建运动轨迹)视为独立任务,并使用专门的模型。GENMO的核心思想是将运动估计重新定义为约束运动生成,即输出运动必须精确满足观测到的条件信号。GENMO利用回归和扩散之间的协同作用,实现精确的全局运动估计,同时支持多样化的运动生成。此外,引入了估计引导的训练目标,利用带有2D标注和文本描述的真实视频来增强生成多样性。该模型架构能够处理变长运动和混合多模态条件(文本、音频、视频),提供灵活的控制。实验结果表明,GENMO作为一个通用框架,能够在一个模型中成功处理多个人体运动任务。
🔬 方法详解
问题定义:现有的人体运动建模方法通常将运动生成和运动估计视为两个独立的任务,分别使用不同的模型。运动生成模型专注于从文本、音频或关键帧等输入生成多样且逼真的人体运动,而运动估计模型则致力于从视频等观测数据中重建准确的运动轨迹。这种分离导致了知识无法在两个任务之间有效迁移,并且需要维护多个独立的模型,增加了复杂性。
核心思路:GENMO的核心思路是将运动估计问题重新定义为一种受约束的运动生成问题。具体来说,模型的目标是生成人体运动,但生成的运动必须精确地满足观测到的条件信号(例如,视频中的2D关键点)。通过这种方式,运动估计任务被纳入到运动生成的框架中,从而实现两个任务的统一。
技术框架:GENMO的整体架构基于扩散模型,并结合了回归的思想。模型接收多种模态的输入(例如,文本、音频、视频),并生成相应的人体运动序列。为了实现运动估计,模型在生成过程中会受到观测到的条件信号的约束。此外,模型还引入了一种估计引导的训练目标,该目标利用带有2D标注和文本描述的真实视频数据来增强生成的多样性。该架构能够处理变长运动,并允许在不同的时间间隔内使用不同的模态作为条件。
关键创新:GENMO最关键的创新在于它将运动估计问题重新定义为受约束的运动生成问题,从而实现了运动生成和运动估计的统一。这种统一的方法使得模型能够同时利用生成模型和估计模型的优势,从而在两个任务上都取得了良好的性能。此外,估计引导的训练目标也是一个重要的创新,它能够有效地利用真实视频数据来提高生成的多样性。
关键设计:GENMO的关键设计包括:1) 使用扩散模型作为生成模型的基础,因为它能够生成高质量和多样化的运动序列;2) 引入条件机制,使得模型能够根据观测到的条件信号生成相应的运动;3) 设计估计引导的训练目标,利用真实视频数据来增强生成的多样性;4) 采用能够处理变长运动的架构,使得模型能够处理不同长度的运动序列;5) 支持多种模态的输入,使得模型能够根据不同的输入生成相应的运动。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GENMO在运动生成和运动估计任务上都取得了良好的性能。例如,在运动生成任务上,GENMO能够生成多样且逼真的人体运动序列,其质量优于现有的生成模型。在运动估计任务上,GENMO能够准确地重建人体运动轨迹,尤其是在遮挡等具有挑战性的情况下,其性能优于现有的估计模型。此外,估计引导的训练目标能够有效地提高生成的多样性。
🎯 应用场景
GENMO的潜在应用领域非常广泛,包括虚拟现实、游戏、动画制作、机器人控制、运动分析等。例如,在虚拟现实中,GENMO可以根据用户的语音或文本指令生成逼真的人体运动,从而增强用户的沉浸感。在机器人控制中,GENMO可以根据视觉输入生成机器人的运动轨迹,从而实现更自然和流畅的机器人运动。该研究的实际价值在于提供了一个统一的框架来处理各种人体运动任务,并有望推动相关领域的发展。
📄 摘要(原文)
Human motion modeling traditionally separates motion generation and estimation into distinct tasks with specialized models. Motion generation models focus on creating diverse, realistic motions from inputs like text, audio, or keyframes, while motion estimation models aim to reconstruct accurate motion trajectories from observations like videos. Despite sharing underlying representations of temporal dynamics and kinematics, this separation limits knowledge transfer between tasks and requires maintaining separate models. We present GENMO, a unified Generalist Model for Human Motion that bridges motion estimation and generation in a single framework. Our key insight is to reformulate motion estimation as constrained motion generation, where the output motion must precisely satisfy observed conditioning signals. Leveraging the synergy between regression and diffusion, GENMO achieves accurate global motion estimation while enabling diverse motion generation. We also introduce an estimation-guided training objective that exploits in-the-wild videos with 2D annotations and text descriptions to enhance generative diversity. Furthermore, our novel architecture handles variable-length motions and mixed multimodal conditions (text, audio, video) at different time intervals, offering flexible control. This unified approach creates synergistic benefits: generative priors improve estimated motions under challenging conditions like occlusions, while diverse video data enhances generation capabilities. Extensive experiments demonstrate GENMO's effectiveness as a generalist framework that successfully handles multiple human motion tasks within a single model.