IAM: Identity-Aware Human Motion and Shape Joint Generation
作者: Wenqi Jia, Zekun Li, Abhay Mittal, Chengcheng Tang, Chuan Guo, Lezi Wang, James Matthew Rehg, Lingling Tao, Size An
分类: cs.CV
发布日期: 2026-04-28
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出IAM:身份感知的人体运动与体型联合生成框架,提升运动真实性。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人体运动生成 体型建模 身份感知 多模态融合 运动动力学
📋 核心要点
- 现有文本驱动的人体运动生成方法忽略了身体形态对运动动力学的强烈影响,导致生成的运动在物理上不一致。
- 本文提出一种身份感知的运动生成框架,利用多模态信号(自然语言和视觉线索)表示身份,显式建模身体形态与运动动力学之间的关系。
- 实验表明,该方法在运动捕捉数据集和真实视频上,提高了运动真实性和运动-身份一致性,同时保持了较高的运动质量。
📝 摘要(中文)
本文提出了一种身份感知的人体运动生成框架,该框架显式地建模了身体形态与运动动力学之间的关系。与依赖显式几何测量不同,身份由多模态信号表示,包括自然语言描述和视觉线索。此外,本文还引入了一种联合运动-体型生成范式,该范式可以同时合成运动序列和身体形状参数,从而允许身份线索直接调节运动动力学。在运动捕捉数据集和大规模真实视频上进行的大量实验表明,该方法在保持高运动质量的同时,提高了运动真实性和运动-身份一致性。
🔬 方法详解
问题定义:现有文本驱动的人体运动生成方法大多假设运动是身份中立的,使用规范的身体表示生成运动,忽略了身体形态(如身体比例、质量分布和年龄)对运动方式的显著影响。这导致生成的运动不符合物理规律,缺乏真实感。
核心思路:本文的核心思路是显式地建模身体形态与运动动力学之间的关系,从而生成更真实、更符合身份特征的运动。通过引入身份感知机制,使模型能够根据个体的身体特征调整运动的生成过程。
技术框架:IAM框架采用联合运动-体型生成范式。它接收自然语言描述和视觉线索作为输入,这些输入共同构成身份信息。框架包含运动生成模块和体型生成模块,这两个模块协同工作,同时生成运动序列和身体形状参数。身份信息被用于调节运动生成过程,确保生成的运动与个体的身体特征相符。
关键创新:最重要的创新点在于身份感知的运动生成机制以及联合运动-体型生成范式。传统方法通常将运动生成和体型建模分开处理,而IAM框架将两者结合起来,允许身份信息直接影响运动动力学,从而生成更真实、更个性化的运动。
关键设计:IAM框架的关键设计包括:1) 使用多模态信号(自然语言和视觉线索)表示身份信息,避免依赖显式的几何测量;2) 设计了特定的网络结构,用于融合身份信息并调节运动生成过程;3) 采用了合适的损失函数,用于约束生成的运动和体型,确保其符合物理规律和身份特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IAM框架在运动真实性和运动-身份一致性方面优于现有方法。在运动捕捉数据集和真实视频上的评估结果显示,IAM能够生成更符合物理规律、更具个性化的运动序列。项目页面提供了更多实验细节和可视化结果,展示了IAM在不同场景下的优越性能。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,提升虚拟角色的真实感和个性化程度。例如,可以根据用户的体型和运动习惯,生成定制化的虚拟化身和运动动画,增强用户体验。此外,该技术还可用于运动分析和康复训练,根据个体的身体特征和运动能力,提供个性化的指导和反馈。
📄 摘要(原文)
Recent advances in text-driven human motion generation enable models to synthesize realistic motion sequences from natural language descriptions. However, most existing approaches assume identity-neutral motion and generate movements using a canonical body representation, ignoring the strong influence of body morphology on motion dynamics. In practice, attributes such as body proportions, mass distribution, and age significantly affect how actions are performed, and neglecting this coupling often leads to physically inconsistent motions. We propose an identity-aware motion generation framework that explicitly models the relationship between body morphology and motion dynamics. Instead of relying on explicit geometric measurements, identity is represented using multimodal signals, including natural language descriptions and visual cues. We further introduce a joint motion-shape generation paradigm that simultaneously synthesizes motion sequences and body shape parameters, allowing identity cues to directly modulate motion dynamics. Extensive experiments on motion capture datasets and large-scale in-the-wild videos demonstrate improved motion realism and motion-identity consistency while maintaining high motion quality. Project page: https://vjwq.github.io/IAM