O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

📄 arXiv: 2603.12144v1 📥 PDF

作者: Mengfei Duan, Hao Shi, Fei Teng, Guoqiang Zhao, Yuheng Zhang, Zhiyong Li, Kailun Yang

分类: cs.CV, cs.RO, eess.IV

发布日期: 2026-03-12

备注: The source code will be made publicly available at https://github.com/MengfeiD/O3N

🔗 代码/项目: GITHUB


💡 一句话要点

O3N:面向全景开放词汇的三维 occupancy 预测框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 全景感知 三维重建 Occupancy预测 开放词汇 具身智能

📋 核心要点

  1. 现有3D occupancy预测方法受限于视角和训练分布,难以应用于开放世界探索的具身智能体。
  2. O3N通过极坐标螺旋拓扑嵌入全景体素,并统一几何和语义监督,实现全景开放词汇 occupancy 预测。
  3. 实验表明,O3N在多个基准测试中达到SOTA,并展现出良好的跨场景泛化和语义可扩展性。

📝 摘要(中文)

本文提出O3N,首个纯视觉、端到端的全景开放词汇 occupancy 预测框架。该框架旨在解决现有3D occupancy预测方法受限于有限视角输入和预定义训练分布的问题,使其能够应用于需要全面、安全场景感知的具身智能体。O3N通过Polar-spiral Mamba (PsM)模块将全景体素嵌入到极坐标螺旋拓扑中,实现连续空间表示和360°长程上下文建模。Occupancy Cost Aggregation (OCA)模块引入了一种原则性机制,用于统一体素空间内的几何和语义监督,确保重建的几何结构与底层语义结构的一致性。此外,Natural Modality Alignment (NMA)建立了一条无梯度对齐路径,协调视觉特征、体素嵌入和文本语义,形成一致的“像素-体素-文本”表示三元组。大量实验表明,该方法不仅在QuadOcc和Human360Occ基准测试中取得了最先进的性能,而且表现出卓越的跨场景泛化和语义可扩展性,为通用3D世界建模铺平了道路。

🔬 方法详解

问题定义:现有3D occupancy预测方法主要面临两个挑战。一是视角受限,无法充分利用全景信息进行三维重建。二是词汇表固定,难以泛化到开放世界场景中,无法识别训练集中未出现过的物体。这些限制阻碍了其在具身智能体等需要全面环境感知的应用中的部署。

核心思路:O3N的核心思路是构建一个能够理解全景视觉输入,并能进行开放词汇 occupancy 预测的端到端框架。通过将全景体素嵌入到极坐标螺旋拓扑中,实现对360°环境的连续空间表示和长程上下文建模。同时,引入几何和语义监督,确保重建的几何结构与语义信息一致。此外,通过自然模态对齐,将视觉特征、体素嵌入和文本语义对齐,从而实现开放词汇的理解能力。

技术框架:O3N框架主要包含三个核心模块:Polar-spiral Mamba (PsM)模块、Occupancy Cost Aggregation (OCA)模块和Natural Modality Alignment (NMA)模块。首先,PsM模块将全景图像转换为极坐标螺旋表示,并进行特征提取。然后,OCA模块将视觉特征映射到体素空间,并结合几何和语义监督进行 occupancy 预测。最后,NMA模块通过无梯度对齐,将视觉特征、体素嵌入和文本语义对齐,实现开放词汇的理解。

关键创新:O3N的关键创新在于以下几点:1) 提出了一种基于极坐标螺旋拓扑的全景体素嵌入方法,能够有效建模360°环境的长程上下文信息。2) 引入了一种统一几何和语义监督的 occupancy 预测方法,提高了重建的准确性和语义一致性。3) 提出了一种自然模态对齐方法,实现了视觉、体素和文本语义的对齐,从而具备了开放词汇的理解能力。

关键设计:PsM模块采用Mamba架构,能够有效建模序列数据中的长程依赖关系。OCA模块通过计算每个体素的 occupancy 概率,并结合几何和语义损失函数进行优化。NMA模块采用对比学习的方式,将视觉特征、体素嵌入和文本语义映射到同一空间,并通过最小化三者之间的距离来实现对齐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

O3N在QuadOcc和Human360Occ基准测试中取得了state-of-the-art的性能。相较于现有方法,O3N在场景泛化能力和语义可扩展性方面表现出显著优势。实验结果表明,O3N能够有效地重建复杂的三维场景,并准确识别出训练集中未出现过的物体。这些结果验证了O3N在全景开放词汇 occupancy 预测方面的有效性。

🎯 应用场景

O3N在自动驾驶、机器人导航、虚拟现实和增强现实等领域具有广泛的应用前景。它可以帮助自动驾驶车辆更好地理解周围环境,提高导航的安全性。对于机器人,O3N可以提供更全面的场景感知能力,使其能够更好地完成各种任务。在VR/AR领域,O3N可以用于构建更逼真的三维场景,提升用户体验。此外,O3N的开放词汇特性使其能够适应各种不同的场景,具有很强的通用性。

📄 摘要(原文)

Understanding and reconstructing the 3D world through omnidirectional perception is an inevitable trend in the development of autonomous agents and embodied intelligence. However, existing 3D occupancy prediction methods are constrained by limited perspective inputs and predefined training distribution, making them difficult to apply to embodied agents that require comprehensive and safe perception of scenes in open world exploration. To address this, we present O3N, the first purely visual, end-to-end Omnidirectional Open-vocabulary Occupancy predictioN framework. O3N embeds omnidirectional voxels in a polar-spiral topology via the Polar-spiral Mamba (PsM) module, enabling continuous spatial representation and long-range context modeling across 360°. The Occupancy Cost Aggregation (OCA) module introduces a principled mechanism for unifying geometric and semantic supervision within the voxel space, ensuring consistency between the reconstructed geometry and the underlying semantic structure. Moreover, Natural Modality Alignment (NMA) establishes a gradient-free alignment pathway that harmonizes visual features, voxel embeddings, and text semantics, forming a consistent "pixel-voxel-text" representation triad. Extensive experiments on multiple models demonstrate that our method not only achieves state-of-the-art performance on QuadOcc and Human360Occ benchmarks but also exhibits remarkable cross-scene generalization and semantic scalability, paving the way toward universal 3D world modeling. The source code will be made publicly available at https://github.com/MengfeiD/O3N.