MEGA: Masked Generative Autoencoder for Human Mesh Recovery

作者: Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Francesc Moreno-Noguer

分类: cs.CV

发布日期: 2024-05-29 (更新: 2025-03-18)

💡 一句话要点

提出MEGA：用于人体网格恢复的掩码生成自编码器，实现确定性和随机性模式下的SOTA性能。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 人体网格恢复 掩码生成自编码器 3D人体姿态估计 序列生成模型 Transformer 离散表示学习

📋 核心要点

现有HMR方法大多忽略了单张图像恢复3D人体网格的内在模糊性，仅输出单一预测结果。
MEGA通过掩码生成建模，将HMR任务转化为生成离散token序列，从而能够生成多个可能的网格。
实验表明，MEGA在确定性模式和随机模式下均取得了SOTA性能，超越了现有单输出和多输出方法。

📝 摘要（中文）

单张RGB图像的人体网格恢复(HMR)是一个高度模糊的问题，因为无限的3D解释可以同样好地解释2D观察。然而，大多数HMR方法忽略了这个问题，并在没有考虑这种模糊性的情况下做出单一预测。一些方法生成人体网格的分布，从而能够对多个预测进行采样；然而，当进行单一预测时，它们中没有一种方法能与最新的单输出模型竞争。本研究提出了一种基于掩码生成建模的新方法。通过对人体姿势和形状进行标记化，我们将HMR任务定义为生成以输入图像为条件的离散token序列。我们引入了MEGA，一个掩码生成自编码器，经过训练可以从图像和部分人体网格token序列中恢复人体网格。给定一张图像，我们灵活的生成方案允许我们在确定性模式下预测单个的人体网格，或者在随机模式下生成多个人体网格。在真实场景基准上的实验表明，MEGA在确定性和随机性模式下都实现了最先进的性能，优于单输出和多输出方法。

🔬 方法详解

问题定义：人体网格恢复（HMR）旨在从单张RGB图像中估计3D人体姿势和形状。由于2D图像到3D结构的映射存在固有的模糊性，现有方法通常忽略了这种模糊性，仅预测单个3D人体网格，无法捕捉到多种可能的解释。

核心思路：MEGA的核心思想是将HMR问题转化为一个序列生成问题，通过掩码生成自编码器学习人体姿势和形状的离散token表示，并利用图像信息作为条件来生成这些token。这种方法允许模型在确定性模式下生成单个最佳网格，或者在随机模式下生成多个可能的网格，从而更好地处理HMR的模糊性。

技术框架：MEGA的整体框架包括以下几个主要模块：1) Tokenization模块：将3D人体网格（姿势和形状参数）离散化为token序列。2) 编码器：将输入图像编码为图像特征表示。3) 解码器：基于图像特征和部分token序列，预测被掩码的token。MEGA使用Transformer架构作为其编码器和解码器。

关键创新：MEGA的关键创新在于使用掩码生成建模来处理HMR的模糊性。通过学习生成离散的token序列，MEGA能够生成多个合理的人体网格，而不仅仅是单个预测。此外，MEGA在确定性模式下也能达到SOTA性能，表明其生成模型具有很强的表示能力。

关键设计：MEGA的关键设计包括：1) 使用VQ-VAE进行tokenization，学习人体姿势和形状的离散表示。2) 使用Transformer架构作为编码器和解码器，捕捉图像特征和token序列之间的依赖关系。3) 训练过程中，随机掩码部分token，并使用交叉熵损失函数来训练模型预测被掩码的token。

🖼️ 关键图片

📊 实验亮点

MEGA在Human3.6M和3DPW等benchmark上取得了SOTA性能。在3DPW上，MEGA在确定性模式下将MPJPE降低到52.1mm，在随机模式下进一步降低到50.8mm，显著优于现有方法。此外，MEGA生成的多个网格能够更好地覆盖真实的人体姿势和形状分布。

🎯 应用场景

MEGA在虚拟现实、增强现实、游戏、动画制作等领域具有广泛的应用前景。它可以用于创建更逼真和多样化的人体模型，提高人机交互的自然性和真实感。此外，MEGA还可以应用于运动分析、人体姿态估计和行为识别等领域，为相关研究提供更准确和可靠的数据。

📄 摘要（原文）

Human Mesh Recovery (HMR) from a single RGB image is a highly ambiguous problem, as an infinite set of 3D interpretations can explain the 2D observation equally well. Nevertheless, most HMR methods overlook this issue and make a single prediction without accounting for this ambiguity. A few approaches generate a distribution of human meshes, enabling the sampling of multiple predictions; however, none of them is competitive with the latest single-output model when making a single prediction. This work proposes a new approach based on masked generative modeling. By tokenizing the human pose and shape, we formulate the HMR task as generating a sequence of discrete tokens conditioned on an input image. We introduce MEGA, a MaskEd Generative Autoencoder trained to recover human meshes from images and partial human mesh token sequences. Given an image, our flexible generation scheme allows us to predict a single human mesh in deterministic mode or to generate multiple human meshes in stochastic mode. Experiments on in-the-wild benchmarks show that MEGA achieves state-of-the-art performance in deterministic and stochastic modes, outperforming single-output and multi-output approaches.

MEGA: Masked Generative Autoencoder for Human Mesh Recovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理