Fast-HaMeR: Boosting Hand Mesh Reconstruction using Knowledge Distillation

📄 arXiv: 2603.16444v1 📥 PDF

作者: Hunain Ahmed Jillani, Ahmed Tawfik Aboukhadra, Ahmed Elhayek, Jameel Malik, Nadia Robertini, Didier Stricker

分类: cs.CV

发布日期: 2026-03-17

🔗 代码/项目: GITHUB


💡 一句话要点

Fast-HaMeR:利用知识蒸馏加速手部网格重建,适用于资源受限设备。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 手部网格重建 知识蒸馏 模型加速 轻量级网络 计算机视觉

📋 核心要点

  1. 现有3D手部重建方法依赖于计算量大的模型,难以在资源受限设备上实现实时应用。
  2. 该论文提出利用知识蒸馏技术,将HaMeR模型的知识迁移到轻量级网络,加速推理过程。
  3. 实验表明,使用轻量级骨干网络可提速1.5倍,精度损失仅0.4mm,提升了模型在低功耗设备上的可用性。

📝 摘要(中文)

快速且精确的3D手部重建对于VR/AR、人机交互、机器人和医疗保健等领域的实时应用至关重要。目前最先进的方法依赖于计算量大的模型,限制了它们在头戴设备、智能手机和嵌入式系统等资源受限设备上的使用。本文研究了如何利用轻量级神经网络结合知识蒸馏,在保持相当的重建精度的同时,加速复杂3D手部重建模型,使其更快更轻。虽然我们的方法适用于各种手部重建框架,但我们主要关注于提升HaMeR模型,该模型目前在重建精度方面处于领先地位。我们用更轻量级的替代方案(包括MobileNet、MobileViT、ConvNeXt和ResNet)替换了其原始的ViT-H骨干网络,并评估了三种知识蒸馏策略:输出层蒸馏、特征层蒸馏以及两者的混合。实验表明,使用仅为原始大小35%的轻量级骨干网络,可以实现1.5倍的推理速度,同时保持相似的性能质量,精度差异仅为0.4mm。更具体地说,我们展示了输出层蒸馏如何显著提高学生模型的性能,而特征层蒸馏对于更高容量的学生模型更有效。总的来说,这些发现为低功耗设备上的高效实际应用铺平了道路。代码和模型已公开发布在https://github.com/hunainahmedj/Fast-HaMeR。

🔬 方法详解

问题定义:论文旨在解决3D手部网格重建模型计算量大,难以在移动设备或嵌入式系统等资源受限平台上实时运行的问题。现有方法通常依赖于复杂的网络结构,导致推理速度慢,无法满足实时应用的需求。

核心思路:论文的核心思路是利用知识蒸馏技术,将一个高性能但计算量大的教师模型(HaMeR)的知识迁移到一个轻量级的学生模型中。通过这种方式,学生模型可以在保持较高精度的同时,显著降低计算复杂度,从而实现更快的推理速度。

技术框架:整体框架包括一个预训练好的教师模型(HaMeR,使用ViT-H骨干网络)和一个轻量级的学生模型(使用MobileNet、MobileViT、ConvNeXt或ResNet等骨干网络)。训练过程采用知识蒸馏策略,包括输出层蒸馏、特征层蒸馏以及混合蒸馏。输入图像首先经过学生模型和教师模型,然后通过比较它们的输出和特征图来计算蒸馏损失,并更新学生模型的参数。

关键创新:该论文的关键创新在于探索了知识蒸馏在加速3D手部网格重建模型中的应用,并针对不同的学生模型,比较了输出层蒸馏、特征层蒸馏以及混合蒸馏的效果。通过实验,论文发现输出层蒸馏对于提高学生模型的整体性能更为有效,而特征层蒸馏对于高容量的学生模型效果更佳。

关键设计:论文的关键设计包括:1) 选择合适的轻量级骨干网络作为学生模型,例如MobileNet、MobileViT、ConvNeXt和ResNet等;2) 设计合适的蒸馏损失函数,包括输出层蒸馏损失(例如,KL散度损失)和特征层蒸馏损失(例如,L2损失);3) 探索不同的蒸馏策略,包括输出层蒸馏、特征层蒸馏以及混合蒸馏,并根据学生模型的容量选择最佳策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用轻量级骨干网络(大小仅为原始ViT-H的35%)作为学生模型,可以实现1.5倍的推理速度提升,同时保持与教师模型相似的性能质量,精度差异仅为0.4mm。此外,论文还发现输出层蒸馏对于提高学生模型的整体性能更为有效,而特征层蒸馏对于高容量的学生模型效果更佳。这些结果验证了知识蒸馏在加速3D手部网格重建模型中的有效性。

🎯 应用场景

该研究成果可广泛应用于VR/AR、人机交互、机器人和医疗保健等领域。例如,在VR/AR应用中,可以实现更流畅的手部交互体验;在机器人领域,可以提高机器人对手部动作的感知和理解能力;在医疗保健领域,可以用于手部康复训练和远程医疗等场景。该研究有助于推动3D手部重建技术在资源受限设备上的应用,具有重要的实际价值和未来影响。

📄 摘要(原文)

Fast and accurate 3D hand reconstruction is essential for real-time applications in VR/AR, human-computer interaction, robotics, and healthcare. Most state-of-the-art methods rely on heavy models, limiting their use on resource-constrained devices like headsets, smartphones, and embedded systems. In this paper, we investigate how the use of lightweight neural networks, combined with Knowledge Distillation, can accelerate complex 3D hand reconstruction models by making them faster and lighter, while maintaining comparable reconstruction accuracy. While our approach is suited for various hand reconstruction frameworks, we focus primarily on boosting the HaMeR model, currently the leading method in terms of reconstruction accuracy. We replace its original ViT-H backbone with lighter alternatives, including MobileNet, MobileViT, ConvNeXt, and ResNet, and evaluate three knowledge distillation strategies: output-level, feature-level, and a hybrid of both. Our experiments show that using lightweight backbones that are only 35% the size of the original achieves 1.5x faster inference speed while preserving similar performance quality with only a minimal accuracy difference of 0.4mm. More specifically, we show how output-level distillation notably improves student performance, while feature-level distillation proves more effective for higher-capacity students. Overall, the findings pave the way for efficient real-world applications on low-power devices. The code and models are publicly available under https://github.com/hunainahmedj/Fast-HaMeR.