OMNI-PoseX: A Fast Vision Model for 6D Object Pose Estimation in Embodied Tasks

📄 arXiv: 2604.02759 📥 PDF

作者: Michael Zhang, Wei Ying, Fangwen Chen, Shifeng Bai, Hanwen Kang

分类: cs.RO

发布日期: 2026-04-06


💡 一句话要点

OMNI-PoseX:用于具身任务的快速6D物体姿态估计视觉模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 6D姿态估计 具身智能 开放词汇感知 反射流匹配 多模态融合

📋 核心要点

  1. 现有6D物体姿态估计方法依赖于封闭集假设或几何无关的回归方案,限制了其在开放环境中的泛化性和实时性。
  2. OMNI-PoseX通过解耦物体级理解和几何一致的旋转推断,并采用轻量级多模态融合策略,实现了高效稳定的6D姿态估计。
  3. OMNI-PoseX在基准测试中实现了SOTA的姿态精度和实时效率,并能可靠地抓取各种未见过的物体。

📝 摘要(中文)

本文提出OMNI-PoseX,一个视觉基础模型,它引入了一种新颖的网络架构,将开放词汇感知与SO(3)感知的反射流匹配姿态预测器相结合。该架构将物体级别的理解与几何一致的旋转推断解耦,并采用轻量级多模态融合策略,将对旋转敏感的几何特征建立在紧凑的语义嵌入之上,从而实现高效且稳定的6D姿态估计。为了增强鲁棒性和泛化能力,该模型在大型6D姿态数据集上进行训练,利用广泛的物体多样性、视角变化和场景复杂性来构建可扩展的开放世界姿态骨干网络。全面的基准姿态估计评估、消融研究、零样本泛化和系统级机器人抓取集成证明了OMNI-PoseX的有效性。OMNI-PoseX实现了SOTA姿态精度和实时效率,同时提供几何一致的预测,从而能够可靠地抓取各种以前未见过的物体。

🔬 方法详解

问题定义:现有6D物体姿态估计方法在开放世界环境中面临挑战,主要痛点在于泛化能力不足,对未见过的物体难以准确估计姿态,并且计算复杂度高,难以满足实时性要求。许多方法依赖于封闭数据集,或者使用几何无关的回归方法,导致预测结果不稳定,缺乏几何一致性。

核心思路:OMNI-PoseX的核心思路是将物体级别的语义理解与几何一致的旋转推断解耦。通过这种解耦,模型可以更好地利用语义信息来指导姿态估计,同时保证预测结果的几何合理性。此外,采用反射流匹配(Reflected Flow Matching)方法进行旋转预测,能够更好地处理SO(3)空间中的旋转变换。

技术框架:OMNI-PoseX的整体架构包含以下几个主要模块:1) 开放词汇感知模块,用于提取图像的语义特征;2) 几何特征提取模块,用于提取对旋转敏感的几何特征;3) 多模态融合模块,将语义特征和几何特征进行融合;4) SO(3)感知的反射流匹配姿态预测器,用于预测物体的6D姿态。整个流程是先通过感知模块提取特征,然后融合特征,最后通过姿态预测器得到最终的姿态估计结果。

关键创新:OMNI-PoseX的关键创新在于将开放词汇感知与SO(3)感知的反射流匹配姿态预测器相结合。这种结合使得模型既能够理解物体的语义信息,又能够保证预测结果的几何一致性。此外,轻量级多模态融合策略也是一个创新点,它能够在保证性能的同时,降低计算复杂度。

关键设计:在网络结构方面,采用了轻量级的卷积神经网络和Transformer结构,以提高计算效率。在损失函数方面,使用了姿态误差损失和反射流匹配损失,以保证姿态估计的准确性和几何一致性。在训练数据方面,使用了大规模的6D姿态数据集,以提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OMNI-PoseX在多个基准数据集上取得了SOTA的姿态估计精度,并且具有实时性。消融实验表明,解耦物体级理解和几何一致的旋转推断能够显著提高性能。零样本泛化实验表明,OMNI-PoseX能够很好地处理未见过的物体。在机器人抓取实验中,OMNI-PoseX能够可靠地抓取各种物体,验证了其在实际应用中的有效性。

🎯 应用场景

OMNI-PoseX在机器人抓取、增强现实、自动驾驶等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境,从而实现更智能的交互。在AR/VR应用中,可以用于精确地跟踪和定位物体,提供更沉浸式的体验。在自动驾驶领域,可以用于识别和定位交通参与者,提高驾驶安全性。该研究的实际价值在于提高机器人和智能系统的感知能力,促进人机协作。

📄 摘要(原文)

Accurate 6D object pose estimation is a fundamental capability for embodied agents, yet remains highly challenging in open-world environments. Many existing methods often rely on closed-set assumptions or geometry-agnostic regression schemes, limiting their generalization, stability, and real-time applicability in robotic systems. We present OMNI-PoseX, a vision foundation model that introduces a novel network architecture unifying open-vocabulary perception with an SO(3)-aware reflected flow matching pose predictor. The architecture decouples object-level understanding from geometry-consistent rotation inference, and employs a lightweight multi-modal fusion strategy that conditions rotation-sensitive geometric features on compact semantic embeddings, enabling efficient and stable 6D pose estimation. To enhance robustness and generalization, the model is trained on large-scale 6D pose datasets, leveraging broad object diversity, viewpoint variation, and scene complexity to build a scalable open-world pose backbone. Comprehensive evaluations across benchmark pose estimation, ablation studies, zero-shot generalization, and system-level robotic grasping integration demonstrate the effectiveness of OMNI-PoseX. The OMNI-PoseX achieves SOTA pose accuracy and real-time efficiency, while delivering geometrically consistent predictions that enable reliable grasping of diverse, previously unseen objects.