SDT-6D: Fully Sparse Depth-Transformer for Staged End-to-End 6D Pose Estimation in Industrial Multi-View Bin Picking
作者: Nico Leuze, Maximilian Hoh, Samed Doğan, Nicolas R. -Peña, Alfred Schoettl
分类: cs.CV, cs.RO
发布日期: 2025-12-09
备注: Accepted to WACV 2026. Preprint version
💡 一句话要点
提出SDT-6D,用于工业多视角分拣中端到端6D位姿估计的全稀疏深度Transformer
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 6D位姿估计 多视角深度 稀疏Transformer 工业分拣 机器人 点云处理 TSDF 体素投票
📋 核心要点
- 工业分拣环境中,物体遮挡、反射和无纹理特性给精确6D位姿估计带来挑战,现有方法难以兼顾精度和效率。
- 提出SDT-6D,利用多视角深度信息,通过稀疏Transformer和分阶段热图机制,实现高效且精确的位姿估计。
- 在IPD和MV-YCB数据集上验证,SDT-6D在复杂分拣场景中表现出竞争力的性能,证明了其有效性。
📝 摘要(中文)
在密集堆叠的工业分拣环境中,由于遮挡、反射和无纹理部件的存在,精确恢复6D位姿仍然是一个严峻的挑战。本文提出了一种整体的、仅使用深度的6D位姿估计方法,该方法将多视角深度图融合为精细的3D点云(原始版本)或稀疏的截断符号距离场(TSDF)。该框架的核心是一个分阶段的热图机制,它在不同分辨率下产生场景自适应的注意力先验,引导计算集中于前景区域,从而保证高分辨率下的内存需求可行。同时,提出了一个密度感知的稀疏Transformer块,动态地关注(自)遮挡和3D数据的非均匀分布。虽然稀疏3D方法已被证明对远距离感知有效,但其在近距离机器人应用中的潜力仍未被充分探索。该框架完全以稀疏方式运行,能够实现高分辨率的体素表示,以捕捉精细的几何细节,这对于在杂乱环境中进行精确的位姿估计至关重要。该方法完整地处理整个场景,通过一种新颖的基于体素的投票策略预测6D位姿,从而可以同时预测任意数量目标对象的位姿。在最近发布的IPD和MV-YCB多视角数据集上验证了该方法,证明了其在高度杂乱的工业和家庭分拣场景中具有竞争力的性能。
🔬 方法详解
问题定义:论文旨在解决工业多视角分拣场景中,由于物体遮挡、反射和无纹理等因素导致的6D位姿估计难题。现有方法通常难以在精度和效率之间取得平衡,尤其是在高分辨率场景下,计算资源消耗巨大。
核心思路:论文的核心思路是利用稀疏的3D表示(TSDF)和Transformer架构,结合分阶段的热图机制,实现对场景的自适应关注,从而降低计算复杂度,同时保持高分辨率下的几何细节,最终实现精确的6D位姿估计。
技术框架:SDT-6D框架主要包含以下几个阶段:1) 多视角深度图输入;2) 将深度图融合为稀疏的TSDF表示;3) 分阶段的热图生成,用于引导注意力;4) 密度感知的稀疏Transformer块,用于处理遮挡和非均匀分布;5) 基于体素的投票策略,预测每个物体的6D位姿。
关键创新:论文的关键创新在于:1) 提出了一种完全稀疏的3D表示方法,能够在高分辨率下保持计算效率;2) 设计了一种密度感知的稀疏Transformer块,能够有效处理遮挡和非均匀分布;3) 提出了一种分阶段的热图机制,能够自适应地关注场景中的前景区域。
关键设计:在TSDF表示中,论文采用了截断符号距离函数来表示空间中的几何信息。密度感知的稀疏Transformer块通过引入与体素密度相关的权重,来调整注意力机制。分阶段的热图机制通过在不同分辨率下生成热图,逐步引导计算集中于目标区域。基于体素的投票策略通过对每个体素的位姿预测进行投票,得到最终的6D位姿估计结果。
🖼️ 关键图片
📊 实验亮点
SDT-6D在IPD和MV-YCB数据集上取得了具有竞争力的结果,证明了其在复杂工业和家庭分拣场景中的有效性。该方法能够处理高度遮挡和杂乱的环境,并实现对多个目标物体的同时位姿估计。实验结果表明,SDT-6D在精度和效率方面都优于现有方法。
🎯 应用场景
该研究成果可应用于工业自动化、智能仓储、机器人分拣等领域。通过精确的6D位姿估计,机器人能够更准确地抓取和放置物体,提高生产效率和自动化水平。未来,该技术有望扩展到更复杂的场景,如医疗手术、自动驾驶等。
📄 摘要(原文)
Accurately recovering 6D poses in densely packed industrial bin-picking environments remain a serious challenge, owing to occlusions, reflections, and textureless parts. We introduce a holistic depth-only 6D pose estimation approach that fuses multi-view depth maps into either a fine-grained 3D point cloud in its vanilla version, or a sparse Truncated Signed Distance Field (TSDF). At the core of our framework lies a staged heatmap mechanism that yields scene-adaptive attention priors across different resolutions, steering computation toward foreground regions, thus keeping memory requirements at high resolutions feasible. Along, we propose a density-aware sparse transformer block that dynamically attends to (self-) occlusions and the non-uniform distribution of 3D data. While sparse 3D approaches has proven effective for long-range perception, its potential in close-range robotic applications remains underexplored. Our framework operates fully sparse, enabling high-resolution volumetric representations to capture fine geometric details crucial for accurate pose estimation in clutter. Our method processes the entire scene integrally, predicting the 6D pose via a novel per-voxel voting strategy, allowing simultaneous pose predictions for an arbitrary number of target objects. We validate our method on the recently published IPD and MV-YCB multi-view datasets, demonstrating competitive performance in heavily cluttered industrial and household bin picking scenarios.