MEGA: Masked Generative Autoencoder for Human Mesh Recovery
作者: Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Francesc Moreno-Noguer
分类: cs.CV
发布日期: 2024-05-29 (更新: 2025-03-18)
💡 一句话要点
提出MEGA:用于人体网格恢复的掩码生成自编码器,实现确定性和随机性模式下的SOTA性能。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体网格恢复 掩码生成自编码器 3D人体姿态估计 序列生成模型 Transformer 离散表示学习
📋 核心要点
- 现有HMR方法大多忽略了单张图像恢复3D人体网格的内在模糊性,仅输出单一预测结果。
- MEGA通过掩码生成建模,将HMR任务转化为生成离散token序列,从而能够生成多个可能的网格。
- 实验表明,MEGA在确定性模式和随机模式下均取得了SOTA性能,超越了现有单输出和多输出方法。
📝 摘要(中文)
单张RGB图像的人体网格恢复(HMR)是一个高度模糊的问题,因为无限的3D解释可以同样好地解释2D观察。然而,大多数HMR方法忽略了这个问题,并在没有考虑这种模糊性的情况下做出单一预测。一些方法生成人体网格的分布,从而能够对多个预测进行采样;然而,当进行单一预测时,它们中没有一种方法能与最新的单输出模型竞争。本研究提出了一种基于掩码生成建模的新方法。通过对人体姿势和形状进行标记化,我们将HMR任务定义为生成以输入图像为条件的离散token序列。我们引入了MEGA,一个掩码生成自编码器,经过训练可以从图像和部分人体网格token序列中恢复人体网格。给定一张图像,我们灵活的生成方案允许我们在确定性模式下预测单个的人体网格,或者在随机模式下生成多个人体网格。在真实场景基准上的实验表明,MEGA在确定性和随机性模式下都实现了最先进的性能,优于单输出和多输出方法。
🔬 方法详解
问题定义:人体网格恢复(HMR)旨在从单张RGB图像中估计3D人体姿势和形状。由于2D图像到3D结构的映射存在固有的模糊性,现有方法通常忽略了这种模糊性,仅预测单个3D人体网格,无法捕捉到多种可能的解释。
核心思路:MEGA的核心思想是将HMR问题转化为一个序列生成问题,通过掩码生成自编码器学习人体姿势和形状的离散token表示,并利用图像信息作为条件来生成这些token。这种方法允许模型在确定性模式下生成单个最佳网格,或者在随机模式下生成多个可能的网格,从而更好地处理HMR的模糊性。
技术框架:MEGA的整体框架包括以下几个主要模块:1) Tokenization模块:将3D人体网格(姿势和形状参数)离散化为token序列。2) 编码器:将输入图像编码为图像特征表示。3) 解码器:基于图像特征和部分token序列,预测被掩码的token。MEGA使用Transformer架构作为其编码器和解码器。
关键创新:MEGA的关键创新在于使用掩码生成建模来处理HMR的模糊性。通过学习生成离散的token序列,MEGA能够生成多个合理的人体网格,而不仅仅是单个预测。此外,MEGA在确定性模式下也能达到SOTA性能,表明其生成模型具有很强的表示能力。
关键设计:MEGA的关键设计包括:1) 使用VQ-VAE进行tokenization,学习人体姿势和形状的离散表示。2) 使用Transformer架构作为编码器和解码器,捕捉图像特征和token序列之间的依赖关系。3) 训练过程中,随机掩码部分token,并使用交叉熵损失函数来训练模型预测被掩码的token。
🖼️ 关键图片
📊 实验亮点
MEGA在Human3.6M和3DPW等benchmark上取得了SOTA性能。在3DPW上,MEGA在确定性模式下将MPJPE降低到52.1mm,在随机模式下进一步降低到50.8mm,显著优于现有方法。此外,MEGA生成的多个网格能够更好地覆盖真实的人体姿势和形状分布。
🎯 应用场景
MEGA在虚拟现实、增强现实、游戏、动画制作等领域具有广泛的应用前景。它可以用于创建更逼真和多样化的人体模型,提高人机交互的自然性和真实感。此外,MEGA还可以应用于运动分析、人体姿态估计和行为识别等领域,为相关研究提供更准确和可靠的数据。
📄 摘要(原文)
Human Mesh Recovery (HMR) from a single RGB image is a highly ambiguous problem, as an infinite set of 3D interpretations can explain the 2D observation equally well. Nevertheless, most HMR methods overlook this issue and make a single prediction without accounting for this ambiguity. A few approaches generate a distribution of human meshes, enabling the sampling of multiple predictions; however, none of them is competitive with the latest single-output model when making a single prediction. This work proposes a new approach based on masked generative modeling. By tokenizing the human pose and shape, we formulate the HMR task as generating a sequence of discrete tokens conditioned on an input image. We introduce MEGA, a MaskEd Generative Autoencoder trained to recover human meshes from images and partial human mesh token sequences. Given an image, our flexible generation scheme allows us to predict a single human mesh in deterministic mode or to generate multiple human meshes in stochastic mode. Experiments on in-the-wild benchmarks show that MEGA achieves state-of-the-art performance in deterministic and stochastic modes, outperforming single-output and multi-output approaches.