SCFlow2: Plug-and-Play Object Pose Refiner with Shape-Constraint Scene Flow

作者: Qingyuan Wang, Rui Song, Jiaojiao Li, Kerui Cheng, David Ferstl, Yinlin Hu

分类: cs.CV

发布日期: 2025-04-12

备注: Accepted by CVPR 2025

💡 一句话要点

SCFlow2：基于形状约束场景流的即插即用物体姿态优化器

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 6D姿态估计 场景流 形状约束 物体优化 几何约束

📋 核心要点

现有6D物体姿态优化方法易受噪声干扰，或需针对新物体进行重新训练，泛化性差。
SCFlow2利用3D场景流，将深度信息作为正则化项，并结合刚性运动嵌入和形状先验。
实验表明，SCFlow2作为后处理步骤，能显著提升现有方法的性能，且无需重新训练。

📝 摘要（中文）

本文提出SCFlow2，一个用于6D物体姿态估计的即插即用优化框架。目前大多数6D物体姿态方法依赖于优化来获得精确的结果。然而，现有的优化方法要么受到对应关系噪声的困扰，要么依赖于对新物体的重新训练。SCFlow2基于SCFlow模型，该模型专为具有形状约束的优化而设计，但通过RGBD帧的3D场景流，将额外的深度信息作为迭代中的正则化项。SCFlow2的关键设计是将几何约束引入到循环匹配网络的训练中，通过结合3D场景流中的刚性运动嵌入和目标物体的3D形状先验。我们在Objaverse、GSO和ShapeNet数据集的组合上训练SCFlow2，并在具有新物体的BOP数据集上进行评估。在将我们的方法用作后处理后，大多数最先进的方法都产生了明显更好的结果，而无需任何重新训练或微调。源代码可在https://scflow2.github.io上找到。

🔬 方法详解

问题定义：现有6D物体姿态估计的优化方法，在建立对应关系时容易受到噪声的影响，并且对于未见过的物体需要重新训练模型，缺乏泛化能力。因此，需要一种能够有效利用几何信息，并且能够泛化到新物体的姿态优化方法。

核心思路：SCFlow2的核心思路是将深度信息作为正则化项，融入到基于场景流的优化框架中。通过结合3D场景流中的刚性运动嵌入和目标物体的3D形状先验，将几何约束引入到循环匹配网络的训练中，从而提高优化精度和泛化能力。

技术框架：SCFlow2是一个即插即用的优化框架，可以作为现有6D物体姿态估计方法的后处理步骤。其主要流程包括：1) 使用现有方法获得初始姿态估计；2) 利用RGBD图像计算3D场景流；3) 将场景流、形状先验和初始姿态输入到循环匹配网络中进行迭代优化；4) 输出优化后的6D物体姿态。

关键创新：SCFlow2的关键创新在于将几何约束融入到循环匹配网络的训练中。具体来说，它结合了3D场景流中的刚性运动嵌入和目标物体的3D形状先验，从而在优化过程中引入了更强的几何约束，提高了优化精度和鲁棒性。

关键设计：SCFlow2的关键设计包括：1) 使用循环匹配网络进行迭代优化，逐步提高姿态估计的精度；2) 将深度信息通过3D场景流的形式融入到优化过程中，作为正则化项；3) 利用刚性运动嵌入和形状先验，引入几何约束，提高优化精度和泛化能力。损失函数的设计也至关重要，需要平衡场景流的准确性和形状约束的强度。

🖼️ 关键图片

📊 实验亮点

SCFlow2在BOP数据集上进行了评估，结果表明，将其作为后处理步骤，可以显著提升现有6D物体姿态估计方法的性能，且无需对新物体进行重新训练或微调。具体提升幅度取决于所使用的初始姿态估计方法，但总体而言，SCFlow2能够带来显著的性能提升。

🎯 应用场景

SCFlow2可广泛应用于机器人抓取、增强现实、自动驾驶等领域。在机器人抓取中，精确的物体姿态估计是成功抓取的关键。在增强现实中，SCFlow2可以提高虚拟物体与真实场景的对齐精度。在自动驾驶中，它可以帮助车辆更准确地感知周围环境中的物体。

📄 摘要（原文）

We introduce SCFlow2, a plug-and-play refinement framework for 6D object pose estimation. Most recent 6D object pose methods rely on refinement to get accurate results. However, most existing refinement methods either suffer from noises in establishing correspondences, or rely on retraining for novel objects. SCFlow2 is based on the SCFlow model designed for refinement with shape constraint, but formulates the additional depth as a regularization in the iteration via 3D scene flow for RGBD frames. The key design of SCFlow2 is an introduction of geometry constraints into the training of recurrent matching network, by combining the rigid-motion embeddings in 3D scene flow and 3D shape prior of the target. We train SCFlow2 on a combination of dataset Objaverse, GSO and ShapeNet, and evaluate on BOP datasets with novel objects. After using our method as a post-processing, most state-of-the-art methods produce significantly better results, without any retraining or fine-tuning. The source code is available at https://scflow2.github.io.

SCFlow2: Plug-and-Play Object Pose Refiner with Shape-Constraint Scene Flow

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理