IndustryShapes: An RGB-D Benchmark dataset for 6D object pose estimation of industrial assembly components and tools

📄 arXiv: 2602.05555v1 📥 PDF

作者: Panagiotis Sapoutzoglou, Orestis Vaggelis, Athina Zacharia, Evangelos Sartinas, Maria Pateraki

分类: cs.CV, cs.RO

发布日期: 2026-02-05

备注: To appear in ICRA 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

IndustryShapes:用于工业装配组件和工具6D位姿估计的RGB-D基准数据集

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 6D位姿估计 RGB-D数据集 工业机器人 物体识别 场景理解

📋 核心要点

  1. 现有6D位姿估计数据集多集中于家用物品或合成数据,缺乏真实工业场景和复杂工件的覆盖。
  2. IndustryShapes数据集旨在提供一个更贴近实际工业应用的6D位姿估计基准,包含多种工业工具和组件。
  3. 该数据集包含经典集和扩展集,提供RGB-D图像和静态启动序列,并评估了现有方法的性能,为未来研究提供参考。

📝 摘要(中文)

本文介绍了一个新的RGB-D基准数据集IndustryShapes,它包含工业工具和组件,专为实例级和新颖物体的6D位姿估计方法设计。该数据集为在工业机器人领域对这些方法进行基准测试提供了一个现实且与应用相关的试验平台,弥合了基于实验室的研究与实际制造场景中的部署之间的差距。与许多先前侧重于家用或消费产品的,或使用合成的、干净的桌面数据集,或仅在受控实验室环境中捕获的对象的数据集不同,IndustryShapes引入了五种具有挑战性属性的新对象类型,这些对象也在真实的工业装配环境中捕获。该数据集具有不同的复杂性,从简单到更具挑战性的场景,包含单个和多个对象,包括同一对象的多个实例的场景,并且分为经典集和扩展集两部分。经典集总共包含4.6k张图像和6k个带注释的姿势。扩展集引入了其他数据模态,以支持对无模型和基于序列的方法的评估。据我们所知,IndustryShapes是第一个提供RGB-D静态启动序列的数据集。我们还在一组具有代表性的最先进的基于实例和新颖对象的6D位姿估计方法上评估了该数据集,包括对象检测、分割,表明该领域仍有改进空间。数据集页面可以在https://pose-lab.github.io/IndustryShapes找到。

🔬 方法详解

问题定义:论文旨在解决工业场景下,复杂工业组件和工具的精确6D位姿估计问题。现有数据集要么不够真实(合成数据),要么不够复杂(家用物品),难以反映实际工业环境的挑战,例如光照变化、遮挡、相似物体等。这限制了6D位姿估计方法在工业机器人领域的应用。

核心思路:论文的核心思路是构建一个更贴近真实工业场景的RGB-D数据集,包含多种工业工具和组件,以及不同复杂度的场景。通过提供高质量的标注和多样化的数据,促进6D位姿估计方法在工业领域的研究和应用。

技术框架:IndustryShapes数据集包含以下几个关键部分: 1. 对象选择:选择了五种具有代表性的工业工具和组件,具有不同的形状、材质和复杂性。 2. 场景构建:构建了单物体、多物体、同类物体多个实例等多种场景,模拟真实的工业装配环境。 3. 数据采集:使用RGB-D相机采集图像和深度数据,并进行精确的6D位姿标注。 4. 数据集划分:将数据集划分为经典集和扩展集,扩展集包含静态启动序列等额外数据模态。 5. 基准评估:使用现有6D位姿估计方法对数据集进行评估,提供基准性能。

关键创新:IndustryShapes数据集的关键创新在于其真实性和复杂性。它首次提供了工业场景下的RGB-D静态启动序列,更贴近实际应用。此外,数据集包含多种具有挑战性的场景,例如多个相同物体的实例,以及复杂的遮挡情况,能够更好地评估6D位姿估计方法的鲁棒性。

关键设计:数据集的标注质量是关键。论文采用了高精度的标注方法,确保6D位姿的准确性。此外,数据集的场景设计也考虑了实际工业环境的特点,例如光照变化、背景干扰等。扩展集中的静态启动序列可以用于评估基于序列的6D位姿估计方法。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文通过在IndustryShapes数据集上评估现有6D位姿估计方法,发现现有方法在工业场景下的性能仍有提升空间。例如,在处理多个相同物体实例和复杂遮挡时,现有方法的精度显著下降。这表明IndustryShapes数据集能够有效地评估方法的鲁棒性和泛化能力,为未来的研究提供了明确的方向。

🎯 应用场景

IndustryShapes数据集可广泛应用于工业机器人领域,例如自动化装配、质量检测、物料搬运等。通过在该数据集上训练和评估6D位姿估计模型,可以提高机器人在复杂工业环境中的感知能力,实现更高效、更智能的自动化生产。该数据集的发布将促进相关算法的研发,加速工业机器人的智能化进程。

📄 摘要(原文)

We introduce IndustryShapes, a new RGB-D benchmark dataset of industrial tools and components, designed for both instance-level and novel object 6D pose estimation approaches. The dataset provides a realistic and application-relevant testbed for benchmarking these methods in the context of industrial robotics bridging the gap between lab-based research and deployment in real-world manufacturing scenarios. Unlike many previous datasets that focus on household or consumer products or use synthetic, clean tabletop datasets, or objects captured solely in controlled lab environments, IndustryShapes introduces five new object types with challenging properties, also captured in realistic industrial assembly settings. The dataset has diverse complexity, from simple to more challenging scenes, with single and multiple objects, including scenes with multiple instances of the same object and it is organized in two parts: the classic set and the extended set. The classic set includes a total of 4,6k images and 6k annotated poses. The extended set introduces additional data modalities to support the evaluation of model-free and sequence-based approaches. To the best of our knowledge, IndustryShapes is the first dataset to offer RGB-D static onboarding sequences. We further evaluate the dataset on a representative set of state-of-the art methods for instance-based and novel object 6D pose estimation, including also object detection, segmentation, showing that there is room for improvement in this domain. The dataset page can be found in https://pose-lab.github.io/IndustryShapes.