OMNI-PoseX: A Fast Vision Model for 6D Object Pose Estimation in Embodied Tasks

作者: Michael Zhang, Wei Ying, Fangwen Chen, Shifeng Bai, Hanwen Kang

分类: cs.RO

发布日期: 2026-04-06

💡 一句话要点

OMNI-PoseX：用于具身任务的快速6D物体姿态估计视觉模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 6D姿态估计 具身智能 开放词汇感知 反射流匹配 多模态融合

📋 核心要点

现有6D物体姿态估计方法依赖于封闭集假设或几何无关的回归方案，限制了其在开放环境中的泛化性和实时性。
OMNI-PoseX通过解耦物体级理解和几何一致的旋转推断，并采用轻量级多模态融合策略，实现了高效稳定的6D姿态估计。
OMNI-PoseX在基准测试中实现了SOTA的姿态精度和实时效率，并能可靠地抓取各种未见过的物体。

📝 摘要（中文）

本文提出OMNI-PoseX，一个视觉基础模型，它引入了一种新颖的网络架构，将开放词汇感知与SO(3)感知的反射流匹配姿态预测器相结合。该架构将物体级别的理解与几何一致的旋转推断解耦，并采用轻量级多模态融合策略，将对旋转敏感的几何特征建立在紧凑的语义嵌入之上，从而实现高效且稳定的6D姿态估计。为了增强鲁棒性和泛化能力，该模型在大型6D姿态数据集上进行训练，利用广泛的物体多样性、视角变化和场景复杂性来构建可扩展的开放世界姿态骨干网络。全面的基准姿态估计评估、消融研究、零样本泛化和系统级机器人抓取集成证明了OMNI-PoseX的有效性。OMNI-PoseX实现了SOTA姿态精度和实时效率，同时提供几何一致的预测，从而能够可靠地抓取各种以前未见过的物体。

🔬 方法详解

问题定义：现有6D物体姿态估计方法在开放世界环境中面临挑战，主要痛点在于泛化能力不足，对未见过的物体难以准确估计姿态，并且计算复杂度高，难以满足实时性要求。许多方法依赖于封闭数据集，或者使用几何无关的回归方法，导致预测结果不稳定，缺乏几何一致性。

核心思路：OMNI-PoseX的核心思路是将物体级别的语义理解与几何一致的旋转推断解耦。通过这种解耦，模型可以更好地利用语义信息来指导姿态估计，同时保证预测结果的几何合理性。此外，采用反射流匹配（Reflected Flow Matching）方法进行旋转预测，能够更好地处理SO(3)空间中的旋转变换。

技术框架：OMNI-PoseX的整体架构包含以下几个主要模块：1) 开放词汇感知模块，用于提取图像的语义特征；2) 几何特征提取模块，用于提取对旋转敏感的几何特征；3) 多模态融合模块，将语义特征和几何特征进行融合；4) SO(3)感知的反射流匹配姿态预测器，用于预测物体的6D姿态。整个流程是先通过感知模块提取特征，然后融合特征，最后通过姿态预测器得到最终的姿态估计结果。

关键创新：OMNI-PoseX的关键创新在于将开放词汇感知与SO(3)感知的反射流匹配姿态预测器相结合。这种结合使得模型既能够理解物体的语义信息，又能够保证预测结果的几何一致性。此外，轻量级多模态融合策略也是一个创新点，它能够在保证性能的同时，降低计算复杂度。

关键设计：在网络结构方面，采用了轻量级的卷积神经网络和Transformer结构，以提高计算效率。在损失函数方面，使用了姿态误差损失和反射流匹配损失，以保证姿态估计的准确性和几何一致性。在训练数据方面，使用了大规模的6D姿态数据集，以提高模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

OMNI-PoseX在多个基准数据集上取得了SOTA的姿态估计精度，并且具有实时性。消融实验表明，解耦物体级理解和几何一致的旋转推断能够显著提高性能。零样本泛化实验表明，OMNI-PoseX能够很好地处理未见过的物体。在机器人抓取实验中，OMNI-PoseX能够可靠地抓取各种物体，验证了其在实际应用中的有效性。

🎯 应用场景

OMNI-PoseX在机器人抓取、增强现实、自动驾驶等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境，从而实现更智能的交互。在AR/VR应用中，可以用于精确地跟踪和定位物体，提供更沉浸式的体验。在自动驾驶领域，可以用于识别和定位交通参与者，提高驾驶安全性。该研究的实际价值在于提高机器人和智能系统的感知能力，促进人机协作。

📄 摘要（原文）

Accurate 6D object pose estimation is a fundamental capability for embodied agents, yet remains highly challenging in open-world environments. Many existing methods often rely on closed-set assumptions or geometry-agnostic regression schemes, limiting their generalization, stability, and real-time applicability in robotic systems. We present OMNI-PoseX, a vision foundation model that introduces a novel network architecture unifying open-vocabulary perception with an SO(3)-aware reflected flow matching pose predictor. The architecture decouples object-level understanding from geometry-consistent rotation inference, and employs a lightweight multi-modal fusion strategy that conditions rotation-sensitive geometric features on compact semantic embeddings, enabling efficient and stable 6D pose estimation. To enhance robustness and generalization, the model is trained on large-scale 6D pose datasets, leveraging broad object diversity, viewpoint variation, and scene complexity to build a scalable open-world pose backbone. Comprehensive evaluations across benchmark pose estimation, ablation studies, zero-shot generalization, and system-level robotic grasping integration demonstrate the effectiveness of OMNI-PoseX. The OMNI-PoseX achieves SOTA pose accuracy and real-time efficiency, while delivering geometrically consistent predictions that enable reliable grasping of diverse, previously unseen objects.

OMNI-PoseX: A Fast Vision Model for 6D Object Pose Estimation in Embodied Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理