GHOST: Fast Category-agnostic Hand-Object Interaction Reconstruction from RGB Videos using Gaussian Splatting

作者: Ahmed Tawfik Aboukhadra, Marcel Rogge, Nadia Robertini, Abdalla Arafa, Jameel Malik, Ahmed Elhayek, Didier Stricker

分类: cs.CV

发布日期: 2026-03-19

🔗 代码/项目: GITHUB

💡 一句话要点

GHOST：基于高斯溅射的快速、类别无关的RGB视频手-物交互重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 手-物交互 高斯溅射 三维重建 单目视频 类别无关

📋 核心要点

单目RGB视频中理解真实的手-物交互对于AR/VR、机器人和具身智能至关重要，但现有方法依赖于特定类别模板或高计算量。
GHOST使用2D高斯溅射表示手和物体，通过几何先验、抓取感知对齐和手感知背景损失，实现快速且物理一致的重建。
实验表明，GHOST在ARCTIC、HO3D等数据集上实现了最先进的3D重建和2D渲染质量，速度比现有方法快一个数量级。

📝 摘要（中文）

本文提出GHOST（Gaussian Hand-Object Splatting），一个快速、类别无关的框架，用于从单目RGB视频中重建动态手-物交互。GHOST将手和物体表示为密集的、视角一致的高斯圆盘，并引入三个关键创新：(1) 几何先验检索和一致性损失，用于补全遮挡的物体区域；(2) 感知抓取的对齐，用于细化手的平移和物体的尺度，以确保真实的接触；(3) 手感知的背景损失，防止惩罚被手遮挡的物体区域。GHOST从单个RGB视频中实现完整、物理一致且可动画的重建，同时比先前的类别无关方法快一个数量级。在ARCTIC、HO3D和真实场景数据集上的大量实验表明，GHOST在3D重建和2D渲染质量方面达到了最先进的精度，使其成为现实手-物交互建模的高效且鲁棒的解决方案。

🔬 方法详解

问题定义：现有方法在从单目RGB视频中重建手-物交互时，要么依赖于特定类别的模板，泛化性差；要么计算量大，难以实时应用；同时，重建结果在物理一致性方面表现不佳，手和物体之间的对齐不够真实。

核心思路：GHOST的核心思路是将手和物体都表示为密集的、视角一致的高斯圆盘，利用高斯溅射的快速渲染能力，并结合几何先验、抓取感知对齐和手感知背景损失，从而实现快速、类别无关且物理一致的重建。

技术框架：GHOST框架主要包含以下几个阶段：1) 初始化：使用现有的手部姿态估计器和物体检测器初始化手和物体的位姿。2) 高斯溅射表示：将手和物体表示为一组高斯圆盘，每个高斯圆盘包含位置、颜色、不透明度等属性。3) 优化：通过最小化几何先验检索和一致性损失、抓取感知对齐损失和手感知背景损失，优化高斯圆盘的参数，从而实现手-物交互的重建。

关键创新：GHOST的关键创新在于：1) 提出了几何先验检索和一致性损失，用于补全被遮挡的物体区域，提高重建的完整性。2) 提出了抓取感知对齐损失，用于细化手的平移和物体的尺度，确保手和物体之间的真实接触。3) 提出了手感知背景损失，防止惩罚被手遮挡的物体区域，提高重建的准确性。

关键设计：几何先验检索和一致性损失通过检索相似物体的3D模型，并将其投影到当前视角，与重建结果进行比较，从而补全被遮挡的区域。抓取感知对齐损失基于手的形状和物体表面的距离，调整手的平移和物体的尺度，使手和物体能够自然地接触。手感知背景损失通过mask区分被手遮挡的物体区域，在计算背景损失时忽略这些区域。

🖼️ 关键图片

📊 实验亮点

GHOST在ARCTIC、HO3D和真实场景数据集上进行了广泛的实验，结果表明，GHOST在3D重建和2D渲染质量方面均达到了最先进的精度，并且速度比先前的类别无关方法快一个数量级。例如，在HO3D数据集上，GHOST的3D重建误差降低了X%，2D渲染质量提高了Y%。

🎯 应用场景

GHOST在AR/VR、机器人和具身智能等领域具有广泛的应用前景。例如，在AR/VR中，可以用于创建更逼真的手-物交互体验；在机器人中，可以用于训练机器人进行物体操作；在具身智能中，可以用于理解人类的行为意图。该研究的实际价值在于提供了一种高效且鲁棒的手-物交互重建方法，有望推动这些领域的发展。

📄 摘要（原文）

Understanding realistic hand-object interactions from monocular RGB videos is essential for AR/VR, robotics, and embodied AI. Existing methods rely on category-specific templates or heavy computation, yet still produce physically inconsistent hand-object alignment in 3D. We introduce GHOST (Gaussian Hand-Object Splatting), a fast, category-agnostic framework for reconstructing dynamic hand-object interactions using 2D Gaussian Splatting. GHOST represents both hands and objects as dense, view-consistent Gaussian discs and introduces three key innovations: (1) a geometric-prior retrieval and consistency loss that completes occluded object regions, (2) a grasp-aware alignment that refines hand translations and object scale to ensure realistic contact, and (3) a hand-aware background loss that prevents penalizing hand-occluded object regions. GHOST achieves complete, physically consistent, and animatable reconstructions from a single RGB video while running an order of magnitude faster than prior category-agnostic methods. Extensive experiments on ARCTIC, HO3D, and in-the-wild datasets demonstrate state-of-the-art accuracy in 3D reconstruction and 2D rendering quality, establishing GHOST as an efficient and robust solution for realistic hand-object interaction modeling. Code is available at https://github.com/ATAboukhadra/GHOST.

GHOST: Fast Category-agnostic Hand-Object Interaction Reconstruction from RGB Videos using Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理