MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos

📄 arXiv: 2409.02638v2 📥 PDF

作者: Junyi Ma, Xieyuanli Chen, Wentao Bao, Jingyi Xu, Hesheng Wang

分类: cs.CV

发布日期: 2024-09-04 (更新: 2025-11-14)

备注: Accepted to TPAMI 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MADiff:基于运动感知Mamba扩散模型,预测第一视角视频中的手部轨迹

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手部轨迹预测 第一视角视频 扩散模型 Mamba 运动感知

📋 核心要点

  1. 现有方法难以在第一视角视频中捕捉与时间因果关系一致的高层人类意图,尤其是在相机运动干扰和缺乏可供性标签的情况下。
  2. MADiff的核心在于利用运动感知的Mamba模块,结合相机运动信息进行选择性扫描,并在扩散模型中进行去噪,预测手部轨迹。
  3. 实验结果表明,MADiff在五个公共数据集上取得了与现有技术水平相当的性能,并实现了实时预测,验证了其有效性。

📝 摘要(中文)

本文提出了一种名为MADiff的手部轨迹预测方法,旨在通过扩散模型预测未来手部轨迹点,从而理解人类意图和动作。该方法利用运动感知的Mamba在潜在空间中进行去噪操作,其中融合了相机佩戴者的自我运动信息,以实现运动驱动的选择性扫描。为了在没有显式可供性监督的情况下区分手与场景之间的关系,本文还利用了一个基础模型,该模型融合了视觉和语言特征,以捕获视频片段中的高层语义。在五个公共数据集上进行的综合实验表明,与最先进的基线方法相比,MADiff能够预测出具有可比性的合理手部轨迹,并实现了实时性能。

🔬 方法详解

问题定义:论文旨在解决第一视角视频中手部轨迹预测的问题。现有方法在处理相机自我运动干扰、缺乏显式可供性标签以及捕捉高层人类意图方面存在不足,导致预测的手部轨迹不够准确和合理。

核心思路:论文的核心思路是利用扩散模型生成手部轨迹,并引入运动感知的Mamba模块来处理相机自我运动带来的干扰。通过融合视觉和语言特征的基础模型,学习手与场景之间的关系,从而在没有显式可供性监督的情况下,提升轨迹预测的准确性。

技术框架:MADiff的整体框架包含以下几个主要模块:1) 视频编码器:提取视频帧的视觉特征。2) 运动估计模块:估计相机的自我运动。3) 视觉-语言融合模块:利用基础模型融合视觉和语言特征,提取高层语义信息。4) 运动感知Mamba模块:结合相机运动信息,对视觉特征进行选择性扫描。5) 扩散模型:在潜在空间中进行去噪操作,生成手部轨迹。

关键创新:MADiff的关键创新在于提出了运动感知的Mamba模块(Motion-Aware Mamba, MDSS)。该模块将相机佩戴者的自我运动信息整合到Mamba的扫描过程中,从而实现运动驱动的选择性扫描,有效地抑制了相机运动对轨迹预测的影响。此外,利用视觉-语言基础模型来学习手与场景之间的关系,避免了对显式可供性标签的依赖。

关键设计:运动感知Mamba模块的关键设计在于将相机运动信息融入到Mamba的状态空间模型中,通过调整扫描方向和权重,实现对运动相关区域的重点关注。视觉-语言融合模块利用预训练的CLIP模型,将视频帧的视觉特征和文本描述的语言特征映射到同一嵌入空间,从而学习手与场景之间的关联。扩散模型采用标准的去噪扩散概率模型(DDPM),通过逐步添加噪声并学习逆过程来生成手部轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MADiff在五个公共数据集上进行了评估,实验结果表明,MADiff在手部轨迹预测方面取得了与最先进的基线方法相当的性能。更重要的是,MADiff实现了实时性能,使其能够应用于需要快速响应的实际场景。此外,消融实验验证了运动感知Mamba模块和视觉-语言融合模块的有效性。

🎯 应用场景

MADiff在扩展现实(XR)和机器人操作等领域具有广泛的应用前景。例如,在增强现实中,它可以预测用户的手部动作,从而实现更自然的交互体验。在机器人操作中,它可以帮助机器人理解人类的意图,从而更好地完成任务。此外,该技术还可以应用于手势识别、人机交互等领域。

📄 摘要(原文)

Understanding human intentions and actions through egocentric videos is important on the path to embodied artificial intelligence. As a branch of egocentric vision techniques, hand trajectory prediction plays a vital role in comprehending human motion patterns, benefiting downstream tasks in extended reality and robot manipulation. However, capturing high-level human intentions consistent with reasonable temporal causality is challenging when only egocentric videos are available. This difficulty is exacerbated under camera egomotion interference and the absence of affordance labels to explicitly guide the optimization of hand waypoint distribution. In this work, we propose a novel hand trajectory prediction method dubbed MADiff, which forecasts future hand waypoints with diffusion models. The devised denoising operation in the latent space is achieved by our proposed motion-aware Mamba, where the camera wearer's egomotion is integrated to achieve motion-driven selective scan (MDSS). To discern the relationship between hands and scenarios without explicit affordance supervision, we leverage a foundation model that fuses visual and language features to capture high-level semantics from video clips. Comprehensive experiments conducted on five public datasets with the existing and our proposed new evaluation metrics demonstrate that MADiff predicts comparably reasonable hand trajectories compared to the state-of-the-art baselines, and achieves real-time performance. We will release our code and pretrained models of MADiff at the project page: https://irmvlab.github.io/madiff.github.io.