Orient Anything V2: Unifying Orientation and Rotation Understanding

📄 arXiv: 2601.05573v1 📥 PDF

作者: Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, HengShuang Zhao, Zhou Zhao

分类: cs.CV

发布日期: 2026-01-09

备注: NeurIPS 2025 Spotlight, Repo: https://github.com/SpatialVision/Orient-Anything-V2


💡 一句话要点

Orient Anything V2:统一物体3D方向与旋转理解的基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D方向估计 旋转对称性 零样本学习 多帧估计 基础模型 6DoF姿态估计

📋 核心要点

  1. 现有方法难以处理具有旋转对称性的物体,且缺乏对物体相对旋转的直接估计能力。
  2. Orient Anything V2通过生成式3D资产、模型在环标注、对称感知损失和多帧架构,实现了方向和旋转的统一理解。
  3. 实验表明,Orient Anything V2在多个基准测试中取得了SOTA的零样本性能,并展现出强大的泛化能力。

📝 摘要(中文)

本文提出了Orient Anything V2,一个增强的基础模型,用于统一理解单张或成对图像中物体的3D方向和旋转。在Orient Anything V1的基础上,V2将方向定义为单个唯一的前表面,并扩展了这一能力,以处理具有不同旋转对称性的物体,并直接估计相对旋转。这些改进得益于四个关键创新:1) 通过生成模型合成的可扩展3D资产,确保了广泛的类别覆盖和平衡的数据分布;2) 一个高效的、模型在环的标注系统,可以稳健地识别每个物体的0到N个有效前表面;3) 一个对称感知、周期性分布拟合目标,可以捕捉所有合理的前向方向,有效地建模物体的旋转对称性;4) 一个直接预测相对物体旋转的多帧架构。大量的实验表明,Orient Anything V2在方向估计、6DoF姿态估计和物体对称性识别方面,在11个广泛使用的基准测试中实现了最先进的零样本性能。该模型表现出强大的泛化能力,显著拓宽了方向估计在各种下游任务中的适用性。

🔬 方法详解

问题定义:现有方法在处理具有旋转对称性的物体时,难以确定唯一的前表面,导致方向估计不准确。此外,现有方法通常无法直接估计物体之间的相对旋转,限制了其在动态场景中的应用。

核心思路:Orient Anything V2的核心思路是通过引入对称感知的周期性分布拟合目标,来建模物体的旋转对称性,从而解决前表面不唯一的问题。同时,采用多帧架构直接预测物体之间的相对旋转,增强了模型对动态场景的适应性。

技术框架:Orient Anything V2的整体框架包括以下几个主要模块:1) 3D资产生成模块,利用生成模型合成多样化的3D物体;2) 模型在环标注模块,用于标注物体的前表面;3) 方向估计模块,采用对称感知的周期性分布拟合目标进行训练;4) 相对旋转估计模块,利用多帧图像预测物体之间的相对旋转。

关键创新:Orient Anything V2的关键创新在于:1) 提出了对称感知的周期性分布拟合目标,能够有效建模物体的旋转对称性;2) 设计了模型在环的标注系统,提高了标注效率和准确性;3) 采用了多帧架构,可以直接预测物体之间的相对旋转。

关键设计:在对称感知的周期性分布拟合目标中,使用了von Mises分布来建模方向的不确定性,并根据物体的对称性调整分布的周期。在多帧架构中,采用了Transformer网络来融合多帧图像的信息,并预测相对旋转。

📊 实验亮点

Orient Anything V2在11个广泛使用的基准测试中实现了最先进的零样本性能,包括方向估计、6DoF姿态估计和物体对称性识别。例如,在ObjectNet3D数据集上,Orient Anything V2的方向估计准确率相比现有方法提升了显著幅度。此外,该模型在处理具有旋转对称性的物体时,表现出更强的鲁棒性。

🎯 应用场景

Orient Anything V2在机器人导航、增强现实、自动驾驶等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境,实现更精确的物体抓取和操作。在增强现实中,它可以实现更逼真的虚拟物体放置和交互。在自动驾驶中,它可以提高车辆对周围物体的感知能力,从而提高驾驶安全性。

📄 摘要(原文)

This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.