DeforHMR: Vision Transformer with Deformable Cross-Attention for 3D Human Mesh Recovery
作者: Jaewoo Heo, George Hu, Zeyu Wang, Serena Yeung-Levy
分类: cs.CV
发布日期: 2024-11-18
备注: 11 pages, 5 figures, 3DV2025
💡 一句话要点
DeforHMR:利用可变形交叉注意力Transformer进行3D人体网格重建
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体网格重建 3D人体姿态估计 可变形注意力 Vision Transformer 单目视觉
📋 核心要点
- 现有HMR方法难以有效利用预训练视觉模型提取的局部空间信息,限制了姿态参数预测的准确性。
- DeforHMR提出一种查询无关的可变形交叉注意力机制,使Transformer解码器能够灵活地关注图像中的相关空间特征。
- 实验表明,DeforHMR在3DPW和RICH等基准测试中,相较于其他单帧回归方法,取得了state-of-the-art的性能。
📝 摘要(中文)
人体网格重建(HMR)是一个重要且具有挑战性的问题,在运动捕捉、增强现实和生物力学等多个领域都有应用。从单张图像准确预测人体姿态参数仍然是一项具有挑战性的3D计算机视觉任务。本文提出DeforHMR,一种新颖的基于回归的单目HMR框架,旨在通过可变形注意力Transformer来增强人体姿态参数的预测。DeforHMR在Transformer解码器中利用了一种新颖的与查询无关的可变形交叉注意力机制,以有效地回归从冻结的预训练Vision Transformer(ViT)编码器中提取的视觉特征。所提出的可变形交叉注意力机制允许模型以更灵活和数据依赖的方式关注相关的空间特征。凭借能够进行空间细微注意力的Transformer解码器,DeforHMR在广泛使用的3D HMR基准3DPW和RICH上,针对单帧基于回归的方法实现了最先进的性能。通过可变形注意力推动3D人体网格重建领域的发展,我们为计算机视觉中从大型预训练视觉编码器解码局部空间信息引入了一种新的有效范例。
🔬 方法详解
问题定义:论文旨在解决单目图像三维人体网格重建(HMR)问题。现有方法,尤其是在利用预训练视觉Transformer (ViT) 的方法中,难以有效地从ViT提取的特征中解码局部空间信息,导致姿态估计精度受限。现有方法无法充分利用ViT强大的特征提取能力,特别是空间局部信息,从而影响了最终的重建效果。
核心思路:论文的核心思路是引入可变形交叉注意力机制,使得Transformer解码器能够以数据驱动的方式,灵活地关注ViT编码器提取的特征图中相关的空间位置。这种机制允许模型在解码过程中,根据输入图像的内容,动态地调整注意力范围,从而更有效地利用局部空间信息。通过这种方式,模型可以更好地理解人体姿态,并提高重建的准确性。
技术框架:DeforHMR框架主要由一个冻结的预训练ViT编码器和一个带有可变形交叉注意力的Transformer解码器组成。ViT编码器负责提取输入图像的视觉特征,这些特征随后被传递到Transformer解码器。解码器利用可变形交叉注意力机制,将编码器的特征图作为输入,回归出人体姿态参数。整个框架采用端到端的方式进行训练。
关键创新:该论文最关键的创新点在于提出了查询无关的可变形交叉注意力机制。与传统的注意力机制不同,该机制不依赖于查询向量来确定注意力权重,而是通过学习一组偏移量,直接在特征图上采样相关的空间位置。这种方法更加灵活,能够更好地适应人体姿态的变化,并且计算效率更高。与现有方法的本质区别在于,它能够更有效地利用ViT编码器提取的局部空间信息,从而提高重建精度。
关键设计:可变形交叉注意力模块是关键设计。具体来说,该模块学习一组偏移量,用于在ViT编码器提取的特征图上采样K个位置。这些偏移量是数据相关的,可以根据输入图像的内容进行调整。采样后的特征被用于计算注意力权重,并最终用于回归人体姿态参数。损失函数包括重建损失、姿态损失和形状损失等,用于约束模型的输出。
🖼️ 关键图片
📊 实验亮点
DeforHMR在3DPW和RICH基准测试中取得了显著的性能提升,超越了现有的单帧回归方法。具体而言,DeforHMR在3DPW上实现了state-of-the-art的性能,并在RICH数据集上取得了具有竞争力的结果。这些结果表明,所提出的可变形交叉注意力机制能够有效地利用ViT编码器提取的局部空间信息,从而提高人体姿态估计的准确性。
🎯 应用场景
DeforHMR在运动捕捉、增强现实、虚拟现实、游戏以及生物力学分析等领域具有广泛的应用前景。例如,在运动捕捉中,可以利用该方法从单目视频中准确地重建人体姿态,从而实现低成本、高精度的运动捕捉。在增强现实和虚拟现实中,可以将虚拟角色与真实场景中的人体进行精确对齐,提升用户体验。该研究的突破将推动相关领域的发展,并为未来的研究提供新的思路。
📄 摘要(原文)
Human Mesh Recovery (HMR) is an important yet challenging problem with applications across various domains including motion capture, augmented reality, and biomechanics. Accurately predicting human pose parameters from a single image remains a challenging 3D computer vision task. In this work, we introduce DeforHMR, a novel regression-based monocular HMR framework designed to enhance the prediction of human pose parameters using deformable attention transformers. DeforHMR leverages a novel query-agnostic deformable cross-attention mechanism within the transformer decoder to effectively regress the visual features extracted from a frozen pretrained vision transformer (ViT) encoder. The proposed deformable cross-attention mechanism allows the model to attend to relevant spatial features more flexibly and in a data-dependent manner. Equipped with a transformer decoder capable of spatially-nuanced attention, DeforHMR achieves state-of-the-art performance for single-frame regression-based methods on the widely used 3D HMR benchmarks 3DPW and RICH. By pushing the boundary on the field of 3D human mesh recovery through deformable attention, we introduce an new, effective paradigm for decoding local spatial information from large pretrained vision encoders in computer vision.