Fish2Mesh Transformer: 3D Human Mesh Recovery from Egocentric Vision

📄 arXiv: 2503.06089v1 📥 PDF

作者: David C. Jeong, Aditya Puranik, James Vong, Vrushabh Abhijit Deogirikar, Ryan Fell, Julianna Dietrich, Maria Kyrarini, Christopher Kitts

分类: cs.CV, cs.RO

发布日期: 2025-03-08


💡 一句话要点

Fish2Mesh:一种用于第一人称视角3D人体网格重建的Transformer模型

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 3D人体网格重建 第一人称视角 鱼眼相机 Transformer 自中心位置嵌入

📋 核心要点

  1. 现有的3D人体网格重建方法在处理头戴式鱼眼相机的第一人称视角图像时,难以有效克服图像畸变和自遮挡问题。
  2. Fish2Mesh通过引入自中心位置嵌入模块,为Swin Transformer生成特定于自我的位置编码,从而减少鱼眼图像畸变的影响。
  3. 该模型利用多任务学习和弱监督训练策略,并在实验中超越了现有最先进的3D人体网格重建模型。

📝 摘要(中文)

本文提出Fish2Mesh,一种基于Transformer并针对鱼眼图像设计的3D人体网格重建模型,用于从第一人称视角估计用户身体姿态和形状。该模型引入了自适应鱼眼图像畸变的自中心位置嵌入模块,为Swin Transformer生成特定于自我的位置编码表。模型采用多任务头进行SMPL参数回归和相机平移估计,并利用3D和2D关节作为辅助损失来支持模型训练。为了解决自中心相机数据稀缺的问题,本文利用预训练的4D-Human模型和第三人称相机数据进行弱监督训练,并构建了训练数据集。实验结果表明,Fish2Mesh优于以往的3D人体网格重建模型。

🔬 方法详解

问题定义:论文旨在解决从头戴式鱼眼相机获取的第一人称视角图像中进行准确的3D人体网格重建问题。现有的方法在处理这种图像时,由于鱼眼镜头带来的严重畸变以及第一人称视角固有的自遮挡问题,导致重建精度较低。

核心思路:论文的核心思路是设计一个能够感知鱼眼图像畸变的Transformer模型。通过引入自中心位置嵌入模块,模型能够学习并补偿鱼眼图像的畸变,从而提高3D人体网格重建的准确性。此外,利用多任务学习和弱监督训练策略,可以有效地利用有限的自中心相机数据。

技术框架:Fish2Mesh模型的整体框架包括以下几个主要模块:1) 图像输入模块:接收来自鱼眼相机的图像。2) 特征提取模块:使用Swin Transformer提取图像特征。3) 自中心位置嵌入模块:生成特定于自我的位置编码表,用于补偿鱼眼图像畸变。4) SMPL参数回归模块:回归SMPL模型的参数,包括姿态、形状等。5) 相机平移估计模块:估计相机在三维空间中的位置。6) 辅助损失模块:利用3D和2D关节作为辅助损失,提高模型训练的稳定性。

关键创新:该论文最重要的技术创新点在于提出了自中心位置嵌入模块,该模块能够有效地学习并补偿鱼眼图像的畸变。与现有方法相比,该模块能够更好地适应鱼眼图像的特性,从而提高3D人体网格重建的准确性。

关键设计:在自中心位置嵌入模块中,论文设计了一个ego-specific position table,该表根据鱼眼图像的畸变特性进行调整。此外,论文还采用了多任务学习策略,同时预测SMPL参数、相机平移和3D/2D关节,并通过辅助损失函数来约束模型的训练。在训练数据方面,论文利用预训练的4D-Human模型和第三人称相机数据进行弱监督训练,从而缓解了自中心相机数据稀缺的问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Fish2Mesh模型在自中心视角3D人体网格重建任务上取得了显著的性能提升。实验结果表明,该模型优于以往的state-of-the-art方法。具体性能数据和对比基线在论文中进行了详细的展示,证明了所提出的自中心位置嵌入模块和多任务学习策略的有效性。

🎯 应用场景

该研究成果可应用于虚拟现实(VR)、增强现实(AR)、人机交互、运动分析、康复训练等领域。通过准确地重建用户在第一人称视角下的身体姿态和形状,可以为用户提供更沉浸式的体验,并实现更自然的人机交互。此外,该技术还可以用于分析用户的运动模式,从而为运动训练和康复提供指导。

📄 摘要(原文)

Egocentric human body estimation allows for the inference of user body pose and shape from a wearable camera's first-person perspective. Although research has used pose estimation techniques to overcome self-occlusions and image distortions caused by head-mounted fisheye images, similar advances in 3D human mesh recovery (HMR) techniques have been limited. We introduce Fish2Mesh, a fisheye-aware transformer-based model designed for 3D egocentric human mesh recovery. We propose an egocentric position embedding block to generate an ego-specific position table for the Swin Transformer to reduce fisheye image distortion. Our model utilizes multi-task heads for SMPL parametric regression and camera translations, estimating 3D and 2D joints as auxiliary loss to support model training. To address the scarcity of egocentric camera data, we create a training dataset by employing the pre-trained 4D-Human model and third-person cameras for weak supervision. Our experiments demonstrate that Fish2Mesh outperforms previous state-of-the-art 3D HMR models.