SDT-6D: Fully Sparse Depth-Transformer for Staged End-to-End 6D Pose Estimation in Industrial Multi-View Bin Picking

作者: Nico Leuze, Maximilian Hoh, Samed Doğan, Nicolas R. -Peña, Alfred Schoettl

分类: cs.CV, cs.RO

发布日期: 2025-12-09

备注: Accepted to WACV 2026. Preprint version

💡 一句话要点

提出SDT-6D，用于工业多视角分拣中端到端6D位姿估计的全稀疏深度Transformer

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 6D位姿估计 多视角深度 稀疏Transformer 工业分拣 机器人 点云处理 TSDF 体素投票

📋 核心要点

工业分拣环境中，物体遮挡、反射和无纹理特性给精确6D位姿估计带来挑战，现有方法难以兼顾精度和效率。
提出SDT-6D，利用多视角深度信息，通过稀疏Transformer和分阶段热图机制，实现高效且精确的位姿估计。
在IPD和MV-YCB数据集上验证，SDT-6D在复杂分拣场景中表现出竞争力的性能，证明了其有效性。

📝 摘要（中文）

在密集堆叠的工业分拣环境中，由于遮挡、反射和无纹理部件的存在，精确恢复6D位姿仍然是一个严峻的挑战。本文提出了一种整体的、仅使用深度的6D位姿估计方法，该方法将多视角深度图融合为精细的3D点云（原始版本）或稀疏的截断符号距离场（TSDF）。该框架的核心是一个分阶段的热图机制，它在不同分辨率下产生场景自适应的注意力先验，引导计算集中于前景区域，从而保证高分辨率下的内存需求可行。同时，提出了一个密度感知的稀疏Transformer块，动态地关注（自）遮挡和3D数据的非均匀分布。虽然稀疏3D方法已被证明对远距离感知有效，但其在近距离机器人应用中的潜力仍未被充分探索。该框架完全以稀疏方式运行，能够实现高分辨率的体素表示，以捕捉精细的几何细节，这对于在杂乱环境中进行精确的位姿估计至关重要。该方法完整地处理整个场景，通过一种新颖的基于体素的投票策略预测6D位姿，从而可以同时预测任意数量目标对象的位姿。在最近发布的IPD和MV-YCB多视角数据集上验证了该方法，证明了其在高度杂乱的工业和家庭分拣场景中具有竞争力的性能。

🔬 方法详解

问题定义：论文旨在解决工业多视角分拣场景中，由于物体遮挡、反射和无纹理等因素导致的6D位姿估计难题。现有方法通常难以在精度和效率之间取得平衡，尤其是在高分辨率场景下，计算资源消耗巨大。

核心思路：论文的核心思路是利用稀疏的3D表示（TSDF）和Transformer架构，结合分阶段的热图机制，实现对场景的自适应关注，从而降低计算复杂度，同时保持高分辨率下的几何细节，最终实现精确的6D位姿估计。

技术框架：SDT-6D框架主要包含以下几个阶段：1) 多视角深度图输入；2) 将深度图融合为稀疏的TSDF表示；3) 分阶段的热图生成，用于引导注意力；4) 密度感知的稀疏Transformer块，用于处理遮挡和非均匀分布；5) 基于体素的投票策略，预测每个物体的6D位姿。

关键创新：论文的关键创新在于：1) 提出了一种完全稀疏的3D表示方法，能够在高分辨率下保持计算效率；2) 设计了一种密度感知的稀疏Transformer块，能够有效处理遮挡和非均匀分布；3) 提出了一种分阶段的热图机制，能够自适应地关注场景中的前景区域。

关键设计：在TSDF表示中，论文采用了截断符号距离函数来表示空间中的几何信息。密度感知的稀疏Transformer块通过引入与体素密度相关的权重，来调整注意力机制。分阶段的热图机制通过在不同分辨率下生成热图，逐步引导计算集中于目标区域。基于体素的投票策略通过对每个体素的位姿预测进行投票，得到最终的6D位姿估计结果。

🖼️ 关键图片

📊 实验亮点

SDT-6D在IPD和MV-YCB数据集上取得了具有竞争力的结果，证明了其在复杂工业和家庭分拣场景中的有效性。该方法能够处理高度遮挡和杂乱的环境，并实现对多个目标物体的同时位姿估计。实验结果表明，SDT-6D在精度和效率方面都优于现有方法。

🎯 应用场景

该研究成果可应用于工业自动化、智能仓储、机器人分拣等领域。通过精确的6D位姿估计，机器人能够更准确地抓取和放置物体，提高生产效率和自动化水平。未来，该技术有望扩展到更复杂的场景，如医疗手术、自动驾驶等。

📄 摘要（原文）

Accurately recovering 6D poses in densely packed industrial bin-picking environments remain a serious challenge, owing to occlusions, reflections, and textureless parts. We introduce a holistic depth-only 6D pose estimation approach that fuses multi-view depth maps into either a fine-grained 3D point cloud in its vanilla version, or a sparse Truncated Signed Distance Field (TSDF). At the core of our framework lies a staged heatmap mechanism that yields scene-adaptive attention priors across different resolutions, steering computation toward foreground regions, thus keeping memory requirements at high resolutions feasible. Along, we propose a density-aware sparse transformer block that dynamically attends to (self-) occlusions and the non-uniform distribution of 3D data. While sparse 3D approaches has proven effective for long-range perception, its potential in close-range robotic applications remains underexplored. Our framework operates fully sparse, enabling high-resolution volumetric representations to capture fine geometric details crucial for accurate pose estimation in clutter. Our method processes the entire scene integrally, predicting the 6D pose via a novel per-voxel voting strategy, allowing simultaneous pose predictions for an arbitrary number of target objects. We validate our method on the recently published IPD and MV-YCB multi-view datasets, demonstrating competitive performance in heavily cluttered industrial and household bin picking scenarios.

SDT-6D: Fully Sparse Depth-Transformer for Staged End-to-End 6D Pose Estimation in Industrial Multi-View Bin Picking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理