DOFS: A Real-world 3D Deformable Object Dataset with Full Spatial Information for Dynamics Model Learning

📄 arXiv: 2410.21758v1 📥 PDF

作者: Zhen Zhang, Xiangyu Chu, Yunxi Tang, K. W. Samuel Au

分类: cs.CV, cs.RO

发布日期: 2024-10-29

备注: 5 pages, 6 figures, 2024 CoRL Workshop on Learning Robot Fine and Dexterous Manipulation: Perception and Control


💡 一句话要点

DOFS:一个用于动力学模型学习的真实世界三维可变形物体全空间信息数据集

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 三维可变形物体 动力学模型学习 全空间信息 RGB-D图像 数据集

📋 核心要点

  1. 现有方法在获取可变形物体完整空间信息方面存在不足,限制了动力学模型的学习。
  2. DOFS数据集利用透明操作平面和多视角RGB-D相机,实现了对可变形物体顶部、侧面和底部信息的全面捕捉。
  3. 该数据集包含主动操作、多视角图像、点云、变形网格和语义占据等信息,并用于训练弹塑性物体动力学模型。

📝 摘要(中文)

本文提出了DOFS,一个三维可变形物体(DOs)(例如,弹塑性物体)的初步数据集,该数据集具有完整的空间信息(即,顶部、侧面和底部信息),它使用一种新颖且低成本的数据收集平台,该平台具有透明的操作平面。该数据集包括主动操作动作、多视角RGB-D图像、良好配准的点云、三维变形网格和具有语义信息的三维占据,使用带有两个平行手指夹持器的捏取策略。此外,我们使用下采样的三维占据和动作作为输入训练了一个神经网络,以对弹塑性物体的动力学进行建模。我们的数据集和数据收集系统的所有CAD模型将很快在我们的网站上发布。

🔬 方法详解

问题定义:现有方法在处理三维可变形物体动力学建模时,往往缺乏对物体完整空间信息的有效获取。特别是对于底部等难以直接观测的区域,数据缺失导致模型难以准确预测物体的形变行为。这限制了模型在真实场景中的应用能力。

核心思路:DOFS数据集的核心思路是通过一个具有透明操作平面的数据采集系统,结合多视角RGB-D相机,从各个角度捕捉可变形物体的图像和深度信息。这种设计使得可以获取包括顶部、侧面和底部在内的完整空间信息,从而为动力学模型的学习提供更全面的数据支持。

技术框架:DOFS数据集的构建流程主要包括以下几个阶段:1) 使用双指夹持器对可变形物体进行捏取操作;2) 利用多视角RGB-D相机同步采集物体的图像和深度信息;3) 对采集到的数据进行配准,生成点云和三维变形网格;4) 对三维空间进行体素化,生成带有语义信息的三维占据;5) 将下采样的三维占据和动作作为输入,训练神经网络来建模弹塑性物体的动力学。

关键创新:DOFS数据集的关键创新在于其数据采集平台的设计,通过透明操作平面实现了对可变形物体全空间信息的获取。与传统的仅从顶部视角采集数据的方法相比,DOFS数据集提供了更全面的物体几何和形变信息,从而能够训练更准确的动力学模型。

关键设计:数据采集平台采用透明材料,保证底部相机可以无遮挡地拍摄物体。使用多台RGB-D相机进行同步拍摄,保证数据的一致性。数据集包含多种不同类型的可变形物体,并提供了详细的语义标注。神经网络的训练使用下采样的三维占据作为输入,以减少计算量并提高模型的泛化能力。具体网络结构和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过使用DOFS数据集训练神经网络,验证了该数据集在可变形物体动力学建模方面的有效性。虽然论文中没有给出具体的性能数据和对比基线,但作者强调该数据集能够提供更全面的空间信息,从而有助于提高动力学模型的准确性和泛化能力。数据集和数据采集系统的CAD模型将开源。

🎯 应用场景

DOFS数据集可广泛应用于机器人操作、虚拟现实、游戏开发等领域。例如,机器人可以利用该数据集学习如何抓取和操作各种形状的软体物体;虚拟现实应用可以利用该数据集生成更逼真的可变形物体交互效果;游戏开发者可以利用该数据集创建更丰富的物理模拟场景。该数据集的发布将促进可变形物体动力学建模和相关领域的发展。

📄 摘要(原文)

This work proposes DOFS, a pilot dataset of 3D deformable objects (DOs) (e.g., elasto-plastic objects) with full spatial information (i.e., top, side, and bottom information) using a novel and low-cost data collection platform with a transparent operating plane. The dataset consists of active manipulation action, multi-view RGB-D images, well-registered point clouds, 3D deformed mesh, and 3D occupancy with semantics, using a pinching strategy with a two-parallel-finger gripper. In addition, we trained a neural network with the down-sampled 3D occupancy and action as input to model the dynamics of an elasto-plastic object. Our dataset and all CADs of the data collection system will be released soon on our website.