VIMCAN: Visual-Inertial 3D Human Pose Estimation with Hybrid Mamba-Cross-Attention Network

📄 arXiv: 2605.07552v1 📥 PDF

作者: Zepeng Yang, Junxuan Bai, Hao Li, Ju Dai, Junjun Pan, Yongfeng Yin, Bin Li

分类: cs.CV

发布日期: 2026-05-08

备注: 10 pages


💡 一句话要点

提出VIMCAN混合架构,融合Mamba与交叉注意力机制实现高效视觉-惯性3D人体姿态估计

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D人体姿态估计 视觉惯性融合 Mamba架构 交叉注意力 实时推理 多模态学习

📋 核心要点

  1. 现有基于Transformer的姿态估计方法存在计算复杂度随序列长度呈二次增长的问题,难以满足长序列实时处理需求。
  2. 提出VIMCAN混合架构,利用Mamba处理时间序列的高效性,结合交叉注意力机制捕捉多模态数据间的复杂空间依赖。
  3. 实验表明VIMCAN在TotalCapture和3DPW数据集上刷新了精度记录,并能在消费级硬件上实现超过60 FPS的实时推理。

📝 摘要(中文)

深度学习的快速发展显著提升了多模态3D人体姿态估计(HPE)的精度。然而,当前最先进(SOTA)的HPE流程仍依赖于Transformer,其二次方复杂度使得长序列的实时处理难以实现。Mamba通过选择性状态空间建模解决了这一问题,在不牺牲表征能力的前提下实现了高效的序列处理,但在多模态场景下难以捕捉复杂的空间依赖关系。为此,本文提出了VIMCAN,这是一种结合了Mamba高效序列建模与交叉注意力空间推理能力的混合架构,实现了RGB关键点与可穿戴IMU数据的稳健融合及姿态估计。通过利用Mamba的动态参数化进行时间建模,并结合注意力机制提取空间依赖,VIMCAN在TotalCapture和3DPW数据集上分别达到了17.2mm和45.3mm的平均每关节位置误差(MPJPE),在超越现有Transformer及其他SOTA方法的同时,在消费级硬件上实现了超过60 FPS的实时推理。

🔬 方法详解

问题定义:论文旨在解决多模态3D人体姿态估计中,长序列处理的计算效率瓶颈与多模态数据间空间依赖建模的矛盾。现有Transformer架构因二次复杂度限制了实时性,而纯状态空间模型(SSM)在处理多模态空间交互时表现不足。

核心思路:采用“分而治之”的策略,利用Mamba的选择性状态空间模型(SSM)处理时间维度上的长程依赖,同时引入交叉注意力(Cross-Attention)机制专门负责RGB关键点与IMU数据之间的空间特征融合,从而兼顾计算效率与建模精度。

技术框架:VIMCAN架构由时间建模模块和空间融合模块组成。输入端接收RGB关键点序列与IMU传感器数据,通过Mamba层提取时间特征,随后利用交叉注意力层在不同模态间进行特征对齐与交互,最终回归出精确的3D人体姿态。

关键创新:首次将Mamba的线性复杂度优势引入视觉-惯性姿态估计领域,通过混合架构解决了纯SSM在多模态空间推理上的短板,实现了时间建模与空间交互的解耦与优化。

关键设计:模型采用了动态参数化技术以增强时间建模的灵活性,通过精心设计的交叉注意力机制实现视觉与惯性模态的深度融合,损失函数设计旨在平衡不同模态的贡献,确保在复杂运动下的姿态估计鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VIMCAN在TotalCapture数据集上达到17.2mm MPJPE,在3DPW数据集上达到45.3mm MPJPE,精度超越了现有的Transformer及其他SOTA方法。更重要的是,该模型在消费级硬件上实现了超过60 FPS的实时推理速度,显著提升了复杂动态场景下的姿态估计效率。

🎯 应用场景

该研究在运动捕捉、虚拟现实(VR/AR)、人机交互及体育分析领域具有广泛应用价值。通过结合低成本摄像头与可穿戴IMU,VIMCAN能够实现高精度、低延迟的实时人体动作追踪,特别适用于需要长时间连续监测或在资源受限设备上运行的交互式应用场景。

📄 摘要(原文)

The rapid advances in deep learning have significantly enhanced the accuracy of multimodal 3D human pose estimation (HPE). However, the state-of-the-art (SOTA) HPE pipelines still rely on Transformers, whose quadratic complexity makes real-time processing for long sequences impractical. Mamba addresses this issue through selective state-space modeling, enabling efficient sequence processing without sacrificing representational power. Nevertheless, it struggles to capture complex spatial dependencies in multimodal settings. To bridge this gap, we propose VIMCAN, a hybrid architecture that combines the efficient sequence modeling of Mamba with the spatial reasoning of Cross-Attention, and performs robust visual-inertial fusion and human pose estimation between RGB keypoints and wearable IMU data. By leveraging Mamba's dynamic parameterization for temporal modeling and Attention for spatial dependency extraction, VIMCAN achieves superior accuracy, with mean per-joint position errors (MPJPE) of 17.2 mm on TotalCapture and 45.3 mm on 3DPW. VIMCAN outperforms prior Transformer-based and other SOTA approaches while supporting real-time inference at over 60 frames per second on consumer-grade hardware. The source code is available on GitHub.