Grasp in Gaussians: Fast Monocular Reconstruction of Dynamic Hand-Object Interactions

📄 arXiv: 2604.12929v1 📥 PDF

作者: Ayce Idil Aytekin, Xu Chen, Zhengyang Shen, Thabo Beeler, Helge Rhodin, Rishabh Dabral, Christian Theobalt

分类: cs.CV

发布日期: 2026-04-14

备注: Project page: https://aidilayce.github.io/GraG-page/


💡 一句话要点

GraG:基于高斯模型的快速单目动态手-物交互三维重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 手-物交互 三维重建 单目视频 高斯混合模型 运动跟踪 人机交互

📋 核心要点

  1. 现有方法在单目视频中重建动态手-物交互时,计算成本高昂,难以实现快速和稳定的跟踪。
  2. GraG利用高斯混合模型(SoG)表示手和物体,结合高效的初始化和简单的对齐损失,实现了快速且鲁棒的跟踪。
  3. 实验表明,GraG在速度、物体重建精度和手部姿态估计精度方面均优于现有方法,尤其是在长时间序列上。

📝 摘要(中文)

本文提出了一种快速且鲁棒的方法,名为Grasp in Gaussians (GraG),用于从单目视频中重建动态的3D手-物交互。与最近优化复杂神经表示的方法不同,GraG侧重于高效地跟踪手和物体,并在预训练的大型模型初始化后进行。核心思想是,通过紧凑的高斯混合模型(Sum-of-Gaussians, SoG)表示,可以恢复准确且时间上稳定的手-物运动。该方法复兴了经典跟踪文献中的SoG,并将其与基于生成式高斯模型的初始化相结合。首先,使用视频自适应的SAM3D流程初始化物体姿态和几何形状,然后通过子采样将生成的高斯密集表示转换为轻量级的SoG。这种紧凑的表示实现了高效快速的跟踪,同时保持了几何保真度。对于手部,采用了一种互补策略:从现成的单目手部姿态初始化开始,使用简单而有效的2D关节和深度对齐损失来细化手部运动,避免了逐帧细化详细的3D手部外观模型,同时保持了稳定的关节运动。在公共基准测试上的大量实验表明,GraG重建长时间序列上的时间一致的手-物交互的速度比现有方法快6.4倍,同时将物体重建提高了13.4%,并将手的每个关节位置误差降低了65%以上。

🔬 方法详解

问题定义:论文旨在解决从单目视频中快速且鲁棒地重建动态手-物交互的3D模型的问题。现有方法通常依赖于复杂的神经表示,计算量大,难以实现实时或接近实时的性能,并且在长时间序列上容易出现跟踪漂移等问题。

核心思路:论文的核心思路是利用紧凑的高斯混合模型(Sum-of-Gaussians, SoG)来表示物体,并结合简单的2D关节和深度对齐损失来优化手部运动。SoG表示能够有效地捕捉物体的几何形状,同时保持计算效率。对于手部,避免了复杂的3D手部外观模型逐帧优化,而是通过2D信息进行约束,保证了跟踪的稳定性。

技术框架:GraG的整体框架包含以下几个主要阶段:1) 使用视频自适应的SAM3D流程初始化物体姿态和几何形状,并将其转换为SoG表示。2) 使用现成的单目手部姿态估计器初始化手部姿态。3) 使用2D关节和深度对齐损失来细化手部运动,同时跟踪SoG表示的物体。4) 在时间序列上迭代执行上述步骤,以重建动态的手-物交互。

关键创新:该方法最重要的创新点在于将经典的SoG表示重新引入到手-物交互的跟踪中,并结合了生成式高斯初始化。与基于神经表示的方法相比,SoG表示更加紧凑和高效,能够实现更快的跟踪速度。此外,通过简单的2D信息约束手部运动,避免了复杂的3D手部模型优化,提高了跟踪的鲁棒性。

关键设计:在物体初始化阶段,使用了视频自适应的SAM3D流程,以提高初始化的准确性。在手部运动优化阶段,使用了2D关节位置和深度信息作为损失函数,以约束手部运动。具体而言,2D关节位置损失用于对齐预测的关节位置与图像中的观测,深度损失用于对齐预测的手部深度与估计的深度图。这些损失函数的权重需要根据具体场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GraG在重建速度上比现有方法快6.4倍,同时将物体重建精度提高了13.4%,并将手的每个关节位置误差降低了65%以上。这些结果表明,GraG在速度和精度方面均优于现有方法,尤其是在长时间序列上表现出色。该方法在HO-3D和BEHAVE数据集上进行了评估,并取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实/增强现实、机器人操作等领域。例如,可以用于创建更自然和逼真的虚拟交互体验,或者用于训练机器人执行复杂的手部操作任务。此外,该方法的高效性使其有可能在移动设备或嵌入式系统上实现实时的手-物交互重建。

📄 摘要(原文)

We present Grasp in Gaussians (GraG), a fast and robust method for reconstructing dynamic 3D hand-object interactions from a single monocular video. Unlike recent approaches that optimize heavy neural representations, our method focuses on tracking the hand and the object efficiently, once initialized from pretrained large models. Our key insight is that accurate and temporally stable hand-object motion can be recovered using a compact Sum-of-Gaussians (SoG) representation, revived from classical tracking literature and integrated with generative Gaussian-based initializations. We initialize object pose and geometry using a video-adapted SAM3D pipeline, then convert the resulting dense Gaussian representation into a lightweight SoG via subsampling. This compact representation enables efficient and fast tracking while preserving geometric fidelity. For the hand, we adopt a complementary strategy: starting from off-the-shelf monocular hand pose initialization, we refine hand motion using simple yet effective 2D joint and depth alignment losses, avoiding per-frame refinement of a detailed 3D hand appearance model while maintaining stable articulation. Extensive experiments on public benchmarks demonstrate that GraG reconstructs temporally coherent hand-object interactions on long sequences 6.4x faster than prior work while improving object reconstruction by 13.4% and reducing hand's per-joint position error by over 65%.