Shaken, Not Stirred: A Novel Dataset for Visual Understanding of Glasses in Human-Robot Bartending Tasks
作者: Lukáš Gajdošech, Hassan Ali, Jan-Gerrit Habekost, Martin Madaras, Matthias Kerzel, Stefan Wermter
分类: cs.RO, cs.CV
发布日期: 2025-03-06 (更新: 2025-09-11)
备注: Submitted and Accepted for Presentation at the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2025
💡 一句话要点
提出GlassNICOLDataset,用于提升人机交互调酒任务中机器人对玻璃杯的视觉理解能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 玻璃杯识别 目标检测 RGB-D数据 自动标注 人机交互 机器人调酒 数据集构建
📋 核心要点
- 现有目标检测数据集在玻璃杯种类上存在不足,透明和反射特性导致开放词汇检测器难以区分玻璃杯子类。
- 论文提出一种基于RGB-D数据的自动标注流程,显著减少人工标注工作量,构建了GlassNICOLDataset数据集。
- 实验表明,基于该数据集训练的基线模型优于现有开放词汇方法,并在人机交互调酒场景中取得了81%的成功率。
📝 摘要(中文)
由于玻璃杯的透明和反射特性,目标检测数据集通常缺乏足够的玻璃杯种类。特别是,广泛应用于具身机器人代理的开放词汇目标检测器,无法区分玻璃杯的子类。这种科学差距给机器人应用带来了问题,导致检测、规划和动作执行之间累积误差。本文提出了一种从RGB-D传感器获取真实世界数据的新方法,该方法最大限度地减少了人工工作量。我们提出了一个自动标注流程,该流程基于深度测量为所有获取的帧生成标签。我们提供了一个新的真实世界玻璃杯对象数据集GlassNICOLDataset,该数据集是在类人机器人平台Neuro-Inspired COLlaborator (NICOL)上收集的。该数据集包含从五个不同摄像头记录的7850张图像。我们表明,我们训练的基线模型优于最先进的开放词汇方法。此外,我们将我们的基线模型部署在NICOL平台上的具身代理方法中,在人机交互调酒场景中,该模型实现了81%的成功率。
🔬 方法详解
问题定义:论文旨在解决机器人调酒场景中,由于玻璃杯的特殊光学属性(透明、反射)导致现有目标检测方法难以准确识别和区分不同类型玻璃杯的问题。现有方法在处理此类问题时,泛化能力不足,容易产生累积误差,影响机器人任务的成功率。
核心思路:论文的核心思路是构建一个专门针对玻璃杯识别的真实世界数据集,并设计一个自动标注流程,以降低数据收集和标注的成本。通过在该数据集上训练模型,提升模型对不同类型玻璃杯的识别能力,从而提高机器人在调酒任务中的表现。
技术框架:整体框架包含数据采集和自动标注两个主要阶段。首先,使用RGB-D传感器在真实调酒场景中采集图像数据。然后,利用深度信息,设计自动标注流程,为图像中的玻璃杯生成标签。最后,使用标注好的数据训练目标检测模型,并在机器人平台上进行部署和测试。
关键创新:论文的关键创新在于提出了一个基于深度信息的自动标注流程,该流程能够有效地减少人工标注的工作量,并生成高质量的玻璃杯数据集。此外,该数据集专注于玻璃杯这一特定类别,并包含了丰富的玻璃杯种类和场景变化,有助于提升模型在该领域的泛化能力。
关键设计:自动标注流程的具体实现细节未知,但可以推测其利用了深度信息来分割玻璃杯区域,并结合已知的玻璃杯模型或先验知识来确定玻璃杯的类别。损失函数和网络结构的选择可能根据具体的目标检测模型而定,但会针对玻璃杯的特点进行优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于GlassNICOLDataset训练的基线模型在玻璃杯识别任务上优于现有的开放词汇目标检测方法。在NICOL机器人平台上的人机交互调酒场景中,该模型取得了81%的成功率,验证了该数据集和方法的有效性。具体的性能提升幅度未在摘要中明确给出,但可以推断出相对于现有方法有显著提升。
🎯 应用场景
该研究成果可应用于人机协作的餐饮服务、智能家居、自动化实验室等领域。通过提升机器人对玻璃器皿等透明物体的识别能力,可以实现更安全、高效的人机交互,例如自动调酒、餐具整理、实验试剂处理等。未来,该技术有望扩展到其他透明或反射物体的识别,进一步提升机器人的环境感知能力。
📄 摘要(原文)
Datasets for object detection often do not account for enough variety of glasses, due to their transparent and reflective properties. Specifically, open-vocabulary object detectors, widely used in embodied robotic agents, fail to distinguish subclasses of glasses. This scientific gap poses an issue for robotic applications that suffer from accumulating errors between detection, planning, and action execution. This paper introduces a novel method for acquiring real-world data from RGB-D sensors that minimizes human effort. We propose an auto-labeling pipeline that generates labels for all the acquired frames based on the depth measurements. We provide a novel real-world glass object dataset GlassNICOLDataset that was collected on the Neuro-Inspired COLlaborator (NICOL), a humanoid robot platform. The dataset consists of 7850 images recorded from five different cameras. We show that our trained baseline model outperforms state-of-the-art open-vocabulary approaches. In addition, we deploy our baseline model in an embodied agent approach to the NICOL platform, on which it achieves a success rate of 81% in a human-robot bartending scenario.