Pickalo: Leveraging 6D Pose Estimation for Low-Cost Industrial Bin Picking

📄 arXiv: 2604.04690 📥 PDF

作者: Alessandro Tarsi, Matteo Mastrogiuseppe, Saverio Taliani, Simone Cortinovis, Ugo Pattacini

分类: cs.RO, cs.AI

发布日期: 2026-04-07


💡 一句话要点

Pickalo:利用6D位姿估计实现低成本工业分拣

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 工业分拣 6D位姿估计 低成本硬件 RGB-D相机 深度学习 机器人 合成数据 Mask-RCNN

📋 核心要点

  1. 工业分拣面临严重遮挡和高昂的3D传感成本,现有方法难以兼顾精度与成本。
  2. Pickalo利用低成本RGB-D相机和合成数据训练的Mask-RCNN,结合SAM-6D位姿估计器,实现精确的6D位姿估计。
  3. 实验表明,Pickalo在UR5e机器人上实现了高抓取成功率和吞吐量,验证了其在实际工业环境中的有效性。

📝 摘要(中文)

由于严重的杂乱、遮挡以及传统3D传感设备的高成本,真实的工业环境中的分拣仍然具有挑战性。我们提出了Pickalo,一个完全基于低成本硬件构建的模块化、基于6D位姿的分拣流程。腕载RGB-D相机从多个视角主动探索场景,原始立体图像流通过BridgeDepth处理,以获得适用于精确碰撞推理的精细深度图。对象实例通过完全在逼真的合成数据上训练的Mask-RCNN模型进行分割,并使用零样本SAM-6D位姿估计器进行定位。位姿缓冲模块融合了随时间推移的多视角观测,处理对象对称性并显著降低位姿噪声。离线状态下,我们为每个对象生成并管理大量反足抓取候选对象;在线状态下,查询基于效用的排序和快速碰撞检查以进行抓取规划。Pickalo部署在带有平行爪夹具的UR5e和一个Intel RealSense D435i上,在密集填充的欧标箱上实现了高达每小时600次的平均抓取次数,抓取成功率达到96-99%,并在30分钟的运行中表现出强大的性能。消融研究证明了增强深度估计和位姿缓冲对于在实际工业条件下长期稳定性和吞吐量的益处。

🔬 方法详解

问题定义:论文旨在解决工业环境中,在存在严重杂乱和遮挡的情况下,如何利用低成本的硬件实现高效、可靠的物体分拣问题。现有方法通常依赖于昂贵的3D传感器或复杂的标定流程,难以在成本敏感的工业环境中大规模部署。

核心思路:论文的核心思路是利用低成本的RGB-D相机获取场景信息,结合深度学习和位姿估计技术,实现对物体的精确识别和定位。通过合成数据训练模型,避免了真实数据标注的成本,并利用多视角融合和位姿缓冲来提高位姿估计的鲁棒性。

技术框架:Pickalo的整体流程包括以下几个主要模块:1) 场景感知:使用腕载RGB-D相机从多个视角获取场景图像和深度信息;2) 深度图优化:利用BridgeDepth算法对原始深度图进行优化,提高深度信息的准确性;3) 物体分割:使用Mask-RCNN模型对场景中的物体进行分割;4) 位姿估计:使用SAM-6D位姿估计器估计物体的6D位姿;5) 位姿融合:利用位姿缓冲模块融合多视角观测结果,降低位姿噪声;6) 抓取规划:离线生成反足抓取候选,在线进行基于效用的排序和碰撞检测,选择最佳抓取姿态。

关键创新:论文的关键创新在于:1) 提出了一种基于低成本硬件的完整分拣流程,降低了部署成本;2) 利用合成数据训练Mask-RCNN模型,避免了真实数据标注的成本;3) 引入位姿缓冲模块,融合多视角观测结果,提高了位姿估计的鲁棒性;4) 采用BridgeDepth算法优化深度图,提升了深度信息的质量。

关键设计:Mask-RCNN模型使用ResNet骨干网络,并在合成数据集上进行训练。SAM-6D位姿估计器采用零样本学习方法,无需对特定物体进行训练。位姿缓冲模块采用卡尔曼滤波算法,对多视角观测结果进行融合。抓取规划模块采用基于效用的排序方法,综合考虑抓取成功率、碰撞风险等因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Pickalo在UR5e机器人上实现了高达每小时600次的平均抓取次数,抓取成功率达到96-99%。消融研究表明,BridgeDepth算法和位姿缓冲模块能够显著提高系统的性能。与未使用BridgeDepth算法相比,使用该算法可以提高深度信息的准确性,从而提高抓取成功率。位姿缓冲模块可以降低位姿噪声,提高系统的长期稳定性。

🎯 应用场景

Pickalo具有广泛的应用前景,可应用于自动化仓库、生产线、物流分拣等领域。该研究降低了工业分拣系统的成本,使得中小企业也能负担得起。未来,该技术有望进一步推广到更复杂的场景,例如处理形状不规则、材质多样的物体,从而实现更智能、更高效的自动化生产。

📄 摘要(原文)

Bin picking in real industrial environments remains challenging due to severe clutter, occlusions, and the high cost of traditional 3D sensing setups. We present Pickalo, a modular 6D pose-based bin-picking pipeline built entirely on low-cost hardware. A wrist-mounted RGB-D camera actively explores the scene from multiple viewpoints, while raw stereo streams are processed with BridgeDepth to obtain refined depth maps suitable for accurate collision reasoning. Object instances are segmented with a Mask-RCNN model trained purely on photorealistic synthetic data and localized using the zero-shot SAM-6D pose estimator. A pose buffer module fuses multi-view observations over time, handling object symmetries and significantly reducing pose noise. Offline, we generate and curate large sets of antipodal grasp candidates per object; online, a utility-based ranking and fast collision checking are queried for the grasp planning. Deployed on a UR5e with a parallel-jaw gripper and an Intel RealSense D435i, Pickalo achieves up to 600 mean picks per hour with 96-99% grasp success and robust performance over 30-minute runs on densely filled euroboxes. Ablation studies demonstrate the benefits of enhanced depth estimation and of the pose buffer for long-term stability and throughput in realistic industrial conditions. Videos are available atthis https URL