Box6D : Zero-shot Category-level 6D Pose Estimation of Warehouse Boxes

📄 arXiv: 2511.15884v1 📥 PDF

作者: Yintao Ma, Sajjad Pakdamansavoji, Amir Rasouli, Tongtong Cao

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-11-19


💡 一句话要点

Box6D:面向仓库箱体的零样本类别级6D位姿估计

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)

关键词: 6D位姿估计 类别级识别 仓库自动化 机器人操作 深度学习

📋 核心要点

  1. 现有6D位姿估计方法在仓库环境中存在不足,如依赖精确CAD模型、泛化性差或忽略环境先验。
  2. Box6D利用类别级CAD模板和快速二分搜索进行尺寸估计,结合深度信息过滤不合理假设。
  3. 实验表明,Box6D在真实仓库场景中实现了有竞争力的6D位姿精度,并显著降低了推理时间。

📝 摘要(中文)

在仓库自动化、拣货、物流和电子商务履行中,对杂乱和遮挡下的新物体的精确高效的6D位姿估计至关重要。该领域有三种主要方法:基于模型的方法假设推理时存在精确的CAD模型,但需要高分辨率网格,且难以迁移到新环境;无模型方法依赖于少量参考图像或视频,更灵活,但通常在具有挑战性的条件下失败;类别级方法旨在平衡灵活性和准确性,但许多方法过于通用,忽略了环境和对象先验,限制了其在工业环境中的实用性。为此,我们提出Box6D,一种专为仓库环境中的存储箱设计的类别级6D位姿估计方法。Box6D从单个RGB-D观测中,通过快速二分搜索推断箱体的尺寸,并使用类别CAD模板而不是特定实例模型来估计位姿。通过基于深度的合理性滤波器和早停策略,Box6D拒绝不合理的假设,从而降低计算成本。我们在真实世界的存储场景和公共基准上进行了评估,结果表明,我们的方法在提供具有竞争力的或更优越的6D位姿精度的同时,将推理时间减少了约76%。

🔬 方法详解

问题定义:论文旨在解决仓库环境中存储箱的6D位姿估计问题。现有方法,如基于CAD模型的方法,需要精确的实例模型,泛化性差;无模型方法在遮挡和杂乱环境下表现不佳;类别级方法虽然具有一定的泛化能力,但往往忽略了仓库环境的先验知识,导致精度受限。

核心思路:Box6D的核心思路是利用类别级的CAD模板,结合RGB-D数据,通过快速尺寸估计和假设验证,实现对仓库箱体的精确6D位姿估计。这种方法避免了对每个箱体进行单独建模的需求,提高了泛化能力,同时利用环境先验知识提高了精度和效率。

技术框架:Box6D的整体流程如下:1) 输入RGB-D图像;2) 使用深度信息进行箱体尺寸的快速二分搜索;3) 利用类别CAD模板生成多个位姿假设;4) 使用深度信息进行合理性过滤,排除不合理的假设;5) 通过早停策略,进一步降低计算成本;6) 输出最终的6D位姿估计结果。

关键创新:Box6D的关键创新在于:1) 提出了针对仓库箱体的类别级6D位姿估计方法,避免了对每个箱体进行单独建模;2) 利用快速二分搜索进行尺寸估计,提高了效率;3) 结合深度信息进行假设验证,提高了精度和鲁棒性。与现有方法相比,Box6D更注重利用环境先验知识,从而在精度和效率之间取得了更好的平衡。

关键设计:Box6D的关键设计包括:1) 快速二分搜索的实现细节,例如搜索范围和步长;2) 基于深度的合理性过滤器的具体实现,例如使用的深度阈值和距离度量;3) 早停策略的实现,例如停止条件和评估指标。论文中可能还涉及损失函数的设计,用于优化位姿估计结果(具体细节未知)。

📊 实验亮点

Box6D在真实世界的存储场景和公共基准上进行了评估,结果表明,该方法在提供具有竞争力的或更优越的6D位姿精度的同时,将推理时间减少了约76%。这意味着Box6D在实际应用中具有更高的效率和实用性。具体的性能数据(例如,位姿估计的精度指标)和对比基线(例如,其他类别级6D位姿估计方法)的详细信息未知。

🎯 应用场景

Box6D可应用于仓库自动化、智能物流、机器人拣选等领域。通过精确估计箱体的6D位姿,机器人可以更准确地抓取和放置箱体,提高仓库运营效率,降低人工成本。该技术还有潜力扩展到其他结构化环境中的物体识别和定位,例如生产线上的零件识别。

📄 摘要(原文)

Accurate and efficient 6D pose estimation of novel objects under clutter and occlusion is critical for robotic manipulation across warehouse automation, bin picking, logistics, and e-commerce fulfillment. There are three main approaches in this domain; Model-based methods assume an exact CAD model at inference but require high-resolution meshes and transfer poorly to new environments; Model-free methods that rely on a few reference images or videos are more flexible, however often fail under challenging conditions; Category-level approaches aim to balance flexibility and accuracy but many are overly general and ignore environment and object priors, limiting their practicality in industrial settings. To this end, we propose Box6d, a category-level 6D pose estimation method tailored for storage boxes in the warehouse context. From a single RGB-D observation, Box6D infers the dimensions of the boxes via a fast binary search and estimates poses using a category CAD template rather than instance-specific models. Suing a depth-based plausibility filter and early-stopping strategy, Box6D then rejects implausible hypotheses, lowering computational cost. We conduct evaluations on real-world storage scenarios and public benchmarks, and show that our approach delivers competitive or superior 6D pose precision while reducing inference time by approximately 76%.