Joint Learning of Pose Regression and Denoising Diffusion with Score Scaling Sampling for Category-level 6D Pose Estimation
作者: Seunghyun Lee, Tae-Kyun Kim
分类: cs.CV
发布日期: 2025-10-05
💡 一句话要点
提出基于姿态回归和去噪扩散联合学习的类别级6D姿态估计方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 6D姿态估计 类别级姿态估计 扩散模型 姿态回归 联合学习 深度学习 机器人视觉
📋 核心要点
- 现有基于扩散模型的6D姿态估计方法存在训练收敛慢、需要额外网络评估姿态假设等问题。
- 该方法通过预训练编码器并联合学习姿态回归和去噪扩散模型,加速训练收敛,并利用时间依赖性得分缩放引导采样。
- 实验结果表明,该方法在多个基准测试中取得了最先进的精度,同时提高了训练和推理效率。
📝 摘要(中文)
本文提出了一种新的类别级6D物体姿态估计流程,该流程利用深度图像输入,通过联合学习姿态回归和去噪扩散模型来建模条件姿态分布,旨在解决现有方法训练收敛慢、编码器与扩散去噪网络端到端学习以及需要额外网络评估姿态假设的问题。该方法首先使用直接姿态回归头预训练编码器,然后通过回归头和去噪扩散头联合学习网络,显著加速训练收敛并提高准确性。其次,提出了基于时间依赖性得分缩放的采样指导,有效平衡探索-利用,无需额外的评估网络。采样指导在早期去噪步骤中保持对称对象的多模态特性,同时确保在最后步骤中生成高质量的姿态。在REAL275、HouseCat6D和ROPE等多个基准测试上的大量实验表明,该方法简单有效,即使在单姿态推理下也能实现最先进的精度,同时在训练和推理方面都更有效。
🔬 方法详解
问题定义:现有的基于扩散模型的类别级6D姿态估计方法,主要痛点在于训练收敛速度慢,因为编码器通常与扩散去噪网络以端到端的方式联合训练,导致优化困难。此外,为了过滤低质量的姿态候选,通常需要额外的网络来评估采样得到的姿态假设,增加了计算负担。
核心思路:本文的核心思路是解耦编码器的学习过程,并利用姿态回归任务来辅助扩散模型的训练。通过预训练编码器,使其能够直接预测姿态,然后再与扩散模型联合训练,可以显著加速训练的收敛速度。同时,通过引入时间依赖性得分缩放的采样指导,可以在采样过程中平衡探索和利用,从而生成高质量的姿态,避免了对额外评估网络的需求。
技术框架:该方法主要包含以下几个模块:1) 编码器:用于从深度图像中提取特征;2) 姿态回归头:用于直接预测物体的姿态;3) 去噪扩散模型:用于建模条件姿态分布,并生成高质量的姿态;4) 时间依赖性得分缩放模块:用于在采样过程中引导姿态生成。整体流程是首先使用姿态回归头预训练编码器,然后将编码器与去噪扩散模型联合训练,并在采样过程中使用时间依赖性得分缩放进行指导。
关键创新:该方法最重要的技术创新点在于联合学习姿态回归和去噪扩散模型,以及引入时间依赖性得分缩放的采样指导。与现有方法相比,该方法不需要额外的姿态评估网络,并且能够显著加速训练收敛,同时提高姿态估计的精度。本质区别在于利用回归任务辅助扩散模型的训练,并动态调整采样策略。
关键设计:在预训练阶段,使用均方误差损失函数来优化姿态回归头。在联合训练阶段,同时优化姿态回归损失和扩散模型的去噪损失。时间依赖性得分缩放函数的设计需要仔细考虑,以平衡探索和利用。具体来说,在早期去噪步骤中,应该鼓励探索,以保持多模态特性,而在后期去噪步骤中,应该鼓励利用,以生成高质量的姿态。网络结构的选择也至关重要,需要选择能够有效提取深度图像特征的编码器和能够有效建模姿态分布的扩散模型。
🖼️ 关键图片
📊 实验亮点
该方法在REAL275、HouseCat6D和ROPE等多个基准测试中取得了最先进的精度,即使在单姿态推理下也能超越现有方法。实验结果表明,该方法不仅提高了姿态估计的精度,还显著提高了训练和推理的效率。具体性能提升数据需要在论文中查找。
🎯 应用场景
该研究成果可广泛应用于机器人抓取、自动驾驶、增强现实等领域。在机器人抓取中,可以帮助机器人准确识别和定位物体,从而实现精确抓取。在自动驾驶中,可以提高车辆对周围环境的感知能力,从而提高驾驶安全性。在增强现实中,可以实现虚拟物体与真实环境的精确对齐。
📄 摘要(原文)
Latest diffusion models have shown promising results in category-level 6D object pose estimation by modeling the conditional pose distribution with depth image input. The existing methods, however, suffer from slow convergence during training, learning its encoder with the diffusion denoising network in end-to-end fashion, and require an additional network that evaluates sampled pose hypotheses to filter out low-quality pose candidates. In this paper, we propose a novel pipeline that tackles these limitations by two key components. First, the proposed method pretrains the encoder with the direct pose regression head, and jointly learns the networks via the regression head and the denoising diffusion head, significantly accelerating training convergence while achieving higher accuracy. Second, sampling guidance via time-dependent score scaling is proposed s.t. the exploration-exploitation trade-off is effectively taken, eliminating the need for the additional evaluation network. The sampling guidance maintains multi-modal characteristics of symmetric objects at early denoising steps while ensuring high-quality pose generation at final steps. Extensive experiments on multiple benchmarks including REAL275, HouseCat6D, and ROPE, demonstrate that the proposed method, simple yet effective, achieves state-of-the-art accuracies even with single-pose inference, while being more efficient in both training and inference.