SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

作者: Patrick Rim, Kevin Harris, Braden Copple, Shangchen Han, Xu Xie, Ivan Shugurov, Sizhe An, He Wen, Alex Wong, Tomas Hodan, Kun He

分类: cs.CV, cs.RO

发布日期: 2026-03-30

备注: CVPR 2026

💡 一句话要点

提出SHOW3D数据集，用于在真实场景中捕捉3D手部与物体交互

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 3D手部姿态估计 物体交互 数据集 多视角视觉 真实场景 机器人操作

📋 核心要点

现有手部-物体交互数据集主要在受控环境中采集，缺乏真实场景的多样性，导致模型泛化能力受限。
提出一种新型无标记多相机系统，结合背负式相机和VR头显，实现在真实场景中捕捉手部与物体交互。
构建了大规模数据集SHOW3D，包含真实场景下的3D手部和物体交互标注，并在下游任务中验证了其有效性。

📝 摘要（中文）

本文提出了一种新的无标记多相机系统，旨在解决以自我为中心的计算机视觉中，对人手和物体在操作过程中的精确3D理解这一难题。现有的手部-物体交互数据集主要在受控的实验环境中捕获，这限制了环境的多样性，并降低了模型在真实场景中的泛化能力。该系统允许在真实的野外条件下进行近乎不受约束的移动，同时能够生成精确的手部和物体的3D标注。该捕获系统由一个轻量级的、背负式的多相机装置组成，该装置与用户佩戴的VR头显同步和校准。为了对人手和物体进行3D真值标注，开发了一种ego-exo跟踪流程，并严格评估了其质量。最终，提出了SHOW3D，这是第一个大规模数据集，包含在各种真实世界环境（包括户外环境）中手部与物体交互的3D标注。该方法显著降低了环境真实性与3D标注精度之间的根本权衡，并通过在多个下游任务上的实验验证了这一点。

🔬 方法详解

问题定义：现有手部-物体交互数据集主要在受控实验室内采集，环境单一，缺乏真实场景的复杂性和多样性。这导致模型在真实场景下的泛化能力较差，难以应用于实际的机器人操作或增强现实等任务。因此，需要一种能够在真实、非受限的环境中，准确捕捉手部与物体交互的3D数据的方案。

核心思路：核心思路是构建一个轻量级的、可穿戴的多相机系统，结合用户佩戴的VR头显，实现在真实场景中自由移动的同时，捕捉手部与物体交互的图像数据。通过开发一种ego-exo跟踪流程，利用多视角的图像信息，生成精确的3D手部和物体标注。这样可以在保证环境真实性的前提下，获得高质量的3D标注数据。

技术框架：该系统主要包含以下几个模块： 1. 硬件系统：包括一个背负式的多相机装置和一个VR头显。多相机装置用于捕捉手部和物体的多视角图像，VR头显用于同步相机和提供用户视角信息。 2. 标定与同步：对多相机系统进行标定，确保相机之间的内外参数已知。同时，将相机与VR头显进行同步，保证数据采集的时间一致性。 3. Ego-Exo跟踪流程：该流程利用多视角的图像信息，对人手和物体进行3D跟踪。首先，利用手部和物体的先验知识，进行初始化的3D姿态估计。然后，通过优化算法，不断调整3D姿态，使其与图像数据保持一致。 4. 3D标注生成：基于ego-exo跟踪的结果，生成精确的3D手部和物体标注。

关键创新：该论文的关键创新在于： 1. 硬件系统：设计了一种轻量级的、可穿戴的多相机系统，能够在真实场景中自由移动。 2. Ego-Exo跟踪流程：开发了一种鲁棒的ego-exo跟踪流程，能够准确地跟踪手部和物体在复杂环境中的3D姿态。 3. 数据集：构建了大规模的SHOW3D数据集，包含真实场景下的3D手部和物体交互标注。

关键设计： 1. 相机布局：多相机装置采用特定的布局，以保证对手部和物体进行全方位的覆盖。 2. 跟踪算法：ego-exo跟踪流程采用基于优化的方法，结合手部和物体的先验知识，提高跟踪的准确性和鲁棒性。 3. 数据标注：采用人工标注和自动标注相结合的方式，保证标注的质量和效率。

🖼️ 关键图片

📊 实验亮点

论文构建了首个大规模的真实场景3D手部-物体交互数据集SHOW3D。实验表明，使用SHOW3D数据集训练的模型在下游任务中表现出更好的泛化能力。具体性能数据和对比基线在论文中有详细展示，验证了该数据集的有效性和价值。

🎯 应用场景

该研究成果可广泛应用于机器人操作、增强现实、虚拟现实等领域。例如，可以利用SHOW3D数据集训练机器人，使其能够更好地理解和执行复杂的手部操作任务。在增强现实和虚拟现实中，可以利用该技术实现更自然、更逼真的人机交互，例如，用户可以通过手势与虚拟物体进行交互。

📄 摘要（原文）

Accurate 3D understanding of human hands and objects during manipulation remains a significant challenge for egocentric computer vision. Existing hand-object interaction datasets are predominantly captured in controlled studio settings, which limits both environmental diversity and the ability of models trained on such data to generalize to real-world scenarios. To address this challenge, we introduce a novel marker-less multi-camera system that allows for nearly unconstrained mobility in genuinely in-the-wild conditions, while still having the ability to generate precise 3D annotations of hands and objects. The capture system consists of a lightweight, back-mounted, multi-camera rig that is synchronized and calibrated with a user-worn VR headset. For 3D ground-truth annotation of hands and objects, we develop an ego-exo tracking pipeline and rigorously evaluate its quality. Finally, we present SHOW3D, the first large-scale dataset with 3D annotations that show hands interacting with objects in diverse real-world environments, including outdoor settings. Our approach significantly reduces the fundamental trade-off between environmental realism and accuracy of 3D annotations, which we validate with experiments on several downstream tasks. show3d-dataset.github.io

SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理