MeshMamba: State Space Models for Articulated 3D Mesh Generation and Reconstruction
作者: Yusuke Yoshiyasu, Leyuan Sun, Ryusuke Sagawa
分类: cs.CV
发布日期: 2025-07-21
备注: Accepted at ICCV2025
💡 一句话要点
MeshMamba:利用状态空间模型进行可动3D网格生成与重建
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D网格生成 3D网格重建 状态空间模型 Mamba 人体网格恢复 扩散模型 可动模型
📋 核心要点
- 现有3D人体网格重建方法难以处理高分辨率网格,尤其是在包含服装和手部细节时,计算成本高昂。
- MeshMamba通过结合Mamba状态空间模型和顶点序列化技术,高效处理大量顶点,从而生成和重建高精度的3D人体网格。
- 实验表明,MeshMamba在3D人体形状生成和人体网格恢复任务中均优于现有方法,尤其在处理复杂几何形状时表现出色。
📝 摘要(中文)
本文提出MeshMamba,一种利用最新提出的Mamba状态空间模型(Mamba-SSM)学习3D可动网格模型的神经网络模型。MeshMamba在处理大量输入tokens时高效且可扩展,能够生成和重建具有超过10,000个顶点的身体网格模型,捕捉服装和手部几何形状。有效学习MeshMamba的关键在于将网格顶点序列化为易于Mamba处理的排序。这通过基于身体部位注释或模板网格的3D顶点位置对顶点进行排序来实现,从而使排序尊重可动形状的结构。基于MeshMamba,我们设计了1) MambaDiff3D,一种用于生成3D可动网格的去噪扩散模型,以及2) Mamba-HMR,一种从单张图像重建人体形状和姿势的3D人体网格恢复模型。实验结果表明,MambaDiff3D可以生成带有服装、抓握手等密集3D人体网格,并在3D人体形状生成任务中优于以前的方法。此外,Mamba-HMR将以前的非参数人体网格恢复方法的能力扩展到包含面部和手部的全身设置,同时在(接近)实时的情况下实现了具有竞争力的性能。
🔬 方法详解
问题定义:现有3D人体网格生成和重建方法,特别是人体网格恢复(HMR)方法,在处理高分辨率网格时面临挑战。传统方法通常只能处理有限数量的顶点,难以捕捉服装、手部等细节,且计算复杂度高,难以实现实时性能。非参数方法虽然避免了参数化模型的限制,但在处理全身姿态和精细几何结构时仍存在局限性。
核心思路:本文的核心思路是利用Mamba状态空间模型(Mamba-SSM)处理3D网格数据。Mamba-SSM具有高效处理长序列数据的能力,能够有效捕捉顶点之间的依赖关系。此外,通过对顶点进行排序,使其能够被Mamba-SSM有效地处理,从而实现高分辨率3D网格的生成和重建。
技术框架:MeshMamba框架包含两个主要应用:MambaDiff3D和Mamba-HMR。MambaDiff3D是一个去噪扩散模型,用于生成3D可动网格。它通过逐步去噪的方式,从随机噪声生成高质量的3D人体网格。Mamba-HMR是一个3D人体网格恢复模型,它从单张图像重建人体形状和姿势。它利用MeshMamba作为骨干网络,提取图像特征并预测3D网格。
关键创新:MeshMamba的关键创新在于将Mamba-SSM应用于3D网格数据的处理,并设计了一种有效的顶点序列化方法。与传统的卷积神经网络或图神经网络相比,Mamba-SSM能够更有效地处理长序列的顶点数据,捕捉顶点之间的全局依赖关系。顶点序列化方法则保证了Mamba-SSM能够按照人体结构的顺序处理顶点,从而更好地学习人体形状和姿势。
关键设计:顶点序列化是MeshMamba的关键设计之一。论文提出了两种顶点排序方法:基于身体部位注释的排序和基于模板网格的3D顶点位置的排序。这两种方法都旨在使顶点按照人体结构的顺序排列,从而使Mamba-SSM能够更好地学习人体形状和姿势。此外,MambaDiff3D采用了去噪扩散模型的标准训练流程,Mamba-HMR则采用了常用的损失函数,如顶点位置损失和姿势损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MambaDiff3D能够生成高质量的3D人体网格,并在3D人体形状生成任务中优于现有方法。Mamba-HMR在人体网格恢复任务中实现了具有竞争力的性能,同时能够处理包含面部和手部的全身姿态。与现有方法相比,Mamba-HMR能够处理更高分辨率的网格,捕捉更精细的几何细节。
🎯 应用场景
MeshMamba在虚拟现实、增强现实、游戏、动画制作等领域具有广泛的应用前景。它可以用于生成逼真的人体模型,实现虚拟试衣、角色定制等功能。此外,MeshMamba还可以用于医学影像分析,例如从CT或MRI图像中重建人体器官的3D模型,辅助医生进行诊断和治疗。
📄 摘要(原文)
In this paper, we introduce MeshMamba, a neural network model for learning 3D articulated mesh models by employing the recently proposed Mamba State Space Models (Mamba-SSMs). MeshMamba is efficient and scalable in handling a large number of input tokens, enabling the generation and reconstruction of body mesh models with more than 10,000 vertices, capturing clothing and hand geometries. The key to effectively learning MeshMamba is the serialization technique of mesh vertices into orderings that are easily processed by Mamba. This is achieved by sorting the vertices based on body part annotations or the 3D vertex locations of a template mesh, such that the ordering respects the structure of articulated shapes. Based on MeshMamba, we design 1) MambaDiff3D, a denoising diffusion model for generating 3D articulated meshes and 2) Mamba-HMR, a 3D human mesh recovery model that reconstructs a human body shape and pose from a single image. Experimental results showed that MambaDiff3D can generate dense 3D human meshes in clothes, with grasping hands, etc., and outperforms previous approaches in the 3D human shape generation task. Additionally, Mamba-HMR extends the capabilities of previous non-parametric human mesh recovery approaches, which were limited to handling body-only poses using around 500 vertex tokens, to the whole-body setting with face and hands, while achieving competitive performance in (near) real-time.