PickScan: Object discovery and reconstruction from handheld interactions

📄 arXiv: 2411.11196v1 📥 PDF

作者: Vincent van der Brugge, Marc Pollefeys, Joshua B. Tenenbaum, Ayush Tewari, Krishna Murthy Jatavallabhula

分类: cs.CV, cs.AI, cs.GR, cs.LG, cs.RO

发布日期: 2024-11-17

备注: 7 pages, 8 figures, published in the 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2024)


💡 一句话要点

PickScan:提出交互引导的物体发现与三维重建方法,无需预训练。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 三维重建 物体发现 人机交互 RGB-D 交互引导

📋 核心要点

  1. 现有方法依赖于强外观先验进行物体发现,仅适用于训练过的物体类别,限制了泛用性。
  2. 该方法利用物体位移进行交互引导和类别无关的物体发现,允许用户操纵物体以完成扫描。
  3. 实验表明,该方法在物体发现和重建方面优于现有方法,显著降低了倒角距离和假阳性率。

📝 摘要(中文)

本文提出了一种新颖的、交互引导的、类别无关的方法,用于从手持交互中发现和重建场景中的物体。该方法允许用户使用RGB-D相机在场景中移动,拿起物体,并最终输出每个拿起物体的3D模型。核心贡献在于一种新的用户-物体交互检测方法,以及提取被操纵物体掩码的方法。在自定义数据集上,该流程以78.3%的精度(100%召回率)发现被操纵的物体,并以0.90厘米的平均倒角距离重建它们。与唯一可比的基于交互且类别无关的基线Co-Fusion相比,倒角距离降低了73%,同时减少了99%的假阳性。

🔬 方法详解

问题定义:现有基于RGB-D的物体重建方法通常依赖于预训练的物体类别或缺乏与用户的交互,导致泛化能力不足,无法处理未见过的物体或复杂场景。Co-Fusion虽然是类别无关的,但精度较低,容易产生大量假阳性。

核心思路:该论文的核心思路是利用用户与物体的交互(即物体位移)作为线索,来分割和重建场景中的物体。通过检测用户拿起和移动物体的动作,可以有效地将目标物体从背景中分离出来,并利用RGB-D数据进行三维重建。这种方法无需预先知道物体的类别,具有更强的泛化能力。

技术框架:PickScan的整体流程包括以下几个主要阶段:1) RGB-D数据采集:用户手持RGB-D相机在场景中移动,并与物体进行交互。2) 用户-物体交互检测:利用RGB-D数据分析物体的位移,检测用户是否正在拿起或移动物体。3) 物体掩码提取:根据交互检测的结果,提取被操纵物体的像素掩码。4) 三维重建:利用提取的掩码和RGB-D数据,对每个被操纵的物体进行三维重建,生成独立的3D模型。

关键创新:该方法最重要的创新点在于提出了一种新的用户-物体交互检测方法,该方法能够准确地检测用户拿起和移动物体的动作,并提取被操纵物体的掩码。与现有方法相比,该方法无需预训练,具有更强的泛化能力,并且能够有效地减少假阳性。

关键设计:论文中交互检测的具体实现细节未知,但可以推测其可能利用了RGB-D数据中的深度信息和颜色信息,结合运动估计等技术,来分析物体的位移和形变。掩码提取可能使用了图像分割或抠图技术,将目标物体从背景中分离出来。三维重建可能采用了基于RGB-D的SLAM或Structure from Motion等方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PickScan在自定义数据集上实现了78.3%的物体发现精度(100%召回率),并以0.90厘米的平均倒角距离重建物体。与Co-Fusion相比,倒角距离降低了73%,同时减少了99%的假阳性,表明该方法在物体发现和重建方面具有显著优势。

🎯 应用场景

该研究成果可应用于机器人操作、增强现实、三维场景重建等领域。例如,机器人可以利用该方法自动识别和抓取物体;增强现实应用可以利用该方法将虚拟物体与真实物体进行交互;三维场景重建可以利用该方法快速生成场景中物体的三维模型。该技术有望提升人机交互的自然性和效率。

📄 摘要(原文)

Reconstructing compositional 3D representations of scenes, where each object is represented with its own 3D model, is a highly desirable capability in robotics and augmented reality. However, most existing methods rely heavily on strong appearance priors for object discovery, therefore only working on those classes of objects on which the method has been trained, or do not allow for object manipulation, which is necessary to scan objects fully and to guide object discovery in challenging scenarios. We address these limitations with a novel interaction-guided and class-agnostic method based on object displacements that allows a user to move around a scene with an RGB-D camera, hold up objects, and finally outputs one 3D model per held-up object. Our main contribution to this end is a novel approach to detecting user-object interactions and extracting the masks of manipulated objects. On a custom-captured dataset, our pipeline discovers manipulated objects with 78.3% precision at 100% recall and reconstructs them with a mean chamfer distance of 0.90cm. Compared to Co-Fusion, the only comparable interaction-based and class-agnostic baseline, this corresponds to a reduction in chamfer distance of 73% while detecting 99% fewer false positives.