Generative 6D Pose Estimation via Conditional Flow Matching

📄 arXiv: 2602.19719v1 📥 PDF

作者: Amir Hamza, Davide Boscaini, Weihang Li, Benjamin Busam, Fabio Poiesi

分类: cs.CV

发布日期: 2026-02-23

备注: Project Website : https://tev-fbk.github.io/Flose/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出条件流匹配方法以解决6D姿态估计问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 6D姿态估计 条件流匹配 物体识别 深度学习 机器人视觉 增强现实

📋 核心要点

  1. 现有的6D姿态估计方法在处理物体对称性和缺乏显著特征时存在明显不足。
  2. 本文提出Flose方法,将6D姿态估计视为条件流匹配问题,结合局部特征进行去噪。
  3. Flose在五个BOP基准数据集上的实验结果显示,平均召回率提升了4.5,超越了现有方法。

📝 摘要(中文)

现有的实例级6D姿态估计方法通常依赖于神经网络直接回归姿态或通过局部特征匹配间接估计。前者在处理物体对称性时表现不佳,而后者在缺乏显著局部特征时失效。为了解决这些问题,本文提出了一种将6D姿态估计形式化为条件流匹配问题的新方法Flose,该方法通过基于局部特征的去噪过程推断物体姿态。与以往仅依赖几何指导的条件流匹配方法不同,Flose还整合了基于外观的语义特征,以减少物体对称性带来的歧义。此外,本文还结合了基于RANSAC的配准方法来处理异常值。实验结果表明,Flose在五个BOP基准数据集上表现优异,平均提升4.5的平均召回率。

🔬 方法详解

问题定义:本文旨在解决现有6D姿态估计方法在物体对称性和局部特征不足情况下的局限性。现有方法要么直接回归姿态,要么依赖局部特征匹配,导致在特定情况下性能下降。

核心思路:Flose方法通过将6D姿态估计转化为条件流匹配问题,利用局部特征进行去噪,结合外观语义特征来减少对称性带来的歧义,从而提高姿态估计的准确性。

技术框架:Flose的整体架构包括数据预处理、特征提取、条件流匹配和去噪过程。首先提取局部特征,然后通过条件流匹配进行姿态推断,最后应用RANSAC进行异常值处理。

关键创新:Flose的主要创新在于将外观特征与几何特征结合,形成了一种新的去噪机制,显著提高了对称物体的姿态估计能力。这一方法与传统的仅依赖几何信息的流匹配方法形成鲜明对比。

关键设计:在Flose中,特征提取使用了深度卷积网络,损失函数结合了几何损失和语义损失,以确保去噪过程的有效性。此外,RANSAC的引入增强了对异常值的鲁棒性,进一步提升了整体性能。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

Flose在五个BOP基准数据集上的实验结果显示,平均召回率提升了4.5,显著优于现有方法。这一提升表明Flose在处理物体对称性和特征不足情况下的有效性,展示了其在实际应用中的潜力。

🎯 应用场景

该研究的潜在应用领域包括机器人视觉、增强现实和自动驾驶等场景。在这些领域中,准确的6D姿态估计对于物体识别、环境理解和交互至关重要。未来,Flose方法有望推动相关技术的发展,提高智能系统的自主性和可靠性。

📄 摘要(原文)

Existing methods for instance-level 6D pose estimation typically rely on neural networks that either directly regress the pose in $\mathrm{SE}(3)$ or estimate it indirectly via local feature matching. The former struggle with object symmetries, while the latter fail in the absence of distinctive local features. To overcome these limitations, we propose a novel formulation of 6D pose estimation as a conditional flow matching problem in $\mathbb{R}^3$. We introduce Flose, a generative method that infers object poses via a denoising process conditioned on local features. While prior approaches based on conditional flow matching perform denoising solely based on geometric guidance, Flose integrates appearance-based semantic features to mitigate ambiguities caused by object symmetries. We further incorporate RANSAC-based registration to handle outliers. We validate Flose on five datasets from the established BOP benchmark. Flose outperforms prior methods with an average improvement of +4.5 Average Recall. Project Website : https://tev-fbk.github.io/Flose/