FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

📄 arXiv: 2510.10868v1 📥 PDF

作者: Soroush Mehraban, Andrea Iaboni, Babak Taati

分类: cs.CV

发布日期: 2025-10-13

备注: Project page: https://soroushmehraban.github.io/FastHMR/


💡 一句话要点

FastHMR:通过Token和层合并及扩散解码加速人体网格重建

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人体网格重建 Transformer 模型加速 Token合并 层合并

📋 核心要点

  1. 基于Transformer的HMR模型性能优异,但深层架构和冗余token导致计算成本高、复杂度高。
  2. 提出误差约束层合并(ECLM)和掩码引导Token合并(Mask-ToMe)策略,减少计算冗余。
  3. 引入扩散解码器,利用时间上下文和姿势先验,弥补合并带来的性能损失,并提升整体性能。

📝 摘要(中文)

本文提出FastHMR,旨在加速基于Transformer的3D人体网格重建(HMR)模型。现有方法通常由于深层Transformer架构和冗余token而计算成本高昂。本文引入两种HMR特定的合并策略:误差约束层合并(ECLM)和掩码引导的Token合并(Mask-ToMe)。ECLM选择性地合并对平均关节位置误差(MPJPE)影响最小的Transformer层,而Mask-ToMe侧重于合并对最终预测贡献较小的背景token。为了进一步解决合并可能导致的性能下降,本文提出了一种基于扩散的解码器,该解码器结合了时间上下文,并利用从大规模运动捕捉数据集学习到的姿势先验。在多个基准测试上的实验表明,该方法在略微提高性能的同时,实现了高达2.3倍的加速。

🔬 方法详解

问题定义:现有基于Transformer的3D人体网格重建(HMR)模型,虽然取得了很好的性能,但是由于其深层的Transformer结构以及大量的冗余token,导致计算量巨大,计算复杂度高,难以在实际应用中部署。因此,如何降低HMR模型的计算成本,提高推理速度,是一个重要的研究问题。

核心思路:本文的核心思路是通过合并Transformer层和token来减少计算量。具体来说,首先通过误差约束层合并(ECLM)来合并对最终性能影响较小的Transformer层,然后通过掩码引导的Token合并(Mask-ToMe)来合并背景token。为了弥补合并操作可能带来的性能损失,引入一个基于扩散模型的解码器,利用时间上下文信息和姿势先验知识来提升重建精度。

技术框架:FastHMR的整体框架包括三个主要部分:一个Transformer编码器,用于提取图像特征;ECLM和Mask-ToMe模块,用于减少计算量;以及一个基于扩散模型的解码器,用于重建3D人体网格。编码器首先将输入图像转换为token序列,然后ECLM选择性地合并Transformer层,Mask-ToMe合并背景token。最后,扩散解码器利用合并后的token序列,结合时间上下文和姿势先验,生成最终的3D人体网格。

关键创新:本文的关键创新在于提出了两种HMR特定的合并策略:ECLM和Mask-ToMe。ECLM通过评估每一层对MPJPE的影响来决定是否合并该层,从而保证在减少计算量的同时,尽可能地保持性能。Mask-ToMe则利用人体掩码来区分前景和背景token,只合并背景token,避免影响人体姿态的重建。此外,扩散解码器的引入也是一个创新点,它能够有效地利用时间上下文和姿势先验来提升重建精度。

关键设计:ECLM的关键在于如何评估每一层对MPJPE的影响。本文采用了一种基于梯度的策略,计算每一层输出对MPJPE的梯度,并根据梯度的大小来决定是否合并该层。Mask-ToMe的关键在于如何生成准确的人体掩码。本文采用了一个预训练的人体分割模型来生成掩码。扩散解码器采用了DDPM (Denoising Diffusion Probabilistic Models) 的架构,并引入了时间上下文信息和姿势先验知识。损失函数包括重建损失和姿势先验损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FastHMR在多个基准测试数据集上取得了显著的加速效果,最高可达2.3倍,同时性能略有提升。例如,在某数据集上,FastHMR在保持MPJPE指标不变的情况下,推理速度提升了2倍。与基线方法相比,FastHMR在性能和效率之间取得了更好的平衡,为实时人体网格重建提供了新的解决方案。

🎯 应用场景

FastHMR具有广泛的应用前景,例如在虚拟现实、增强现实、游戏、动画制作、运动分析、人机交互等领域。该方法可以用于实时人体姿态估计和动作捕捉,为用户提供更加自然和流畅的交互体验。此外,该方法还可以用于监控和安全领域,例如行为识别和异常检测。由于其高效的计算性能,FastHMR更易于部署在移动设备和嵌入式系统中。

📄 摘要(原文)

Recent transformer-based models for 3D Human Mesh Recovery (HMR) have achieved strong performance but often suffer from high computational cost and complexity due to deep transformer architectures and redundant tokens. In this paper, we introduce two HMR-specific merging strategies: Error-Constrained Layer Merging (ECLM) and Mask-guided Token Merging (Mask-ToMe). ECLM selectively merges transformer layers that have minimal impact on the Mean Per Joint Position Error (MPJPE), while Mask-ToMe focuses on merging background tokens that contribute little to the final prediction. To further address the potential performance drop caused by merging, we propose a diffusion-based decoder that incorporates temporal context and leverages pose priors learned from large-scale motion capture datasets. Experiments across multiple benchmarks demonstrate that our method achieves up to 2.3x speed-up while slightly improving performance over the baseline.