OccAny: Generalized Unconstrained Urban 3D Occupancy
作者: Anh-Quan Cao, Tuan-Hung Vu
分类: cs.CV
发布日期: 2026-03-24
备注: Accepted to CVPR 2026. Project page: https://valeoai.github.io/OccAny/
🔗 代码/项目: GITHUB
💡 一句话要点
OccAny:首个广义无约束城市3D Occupancy预测模型,提升泛化性和几何补全能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D Occupancy预测 无约束场景 几何补全 分割强制 新视角渲染 城市环境 自动驾驶
📋 核心要点
- 现有3D occupancy预测方法依赖特定领域数据和精确标定,泛化能力和可扩展性受限。
- OccAny通过分割强制和新视角渲染,提升了在无约束场景下的度量occupancy预测和几何补全能力。
- 实验表明,OccAny在多个数据集上优于视觉几何基线,并在不同输入设置下与领域内自监督方法竞争。
📝 摘要(中文)
现有的3D occupancy预测方法依赖于领域内标注和精确的传感器位姿先验,在可扩展性和域外泛化方面受到限制。虽然最近的视觉几何基础模型表现出强大的泛化能力,但它们主要是为通用目的而设计的,缺乏城市occupancy预测所需的一个或多个关键要素,即度量预测、杂乱场景中的几何补全以及对城市场景的适应。为了弥补这一差距,我们提出了OccAny,这是第一个无约束的城市3D occupancy模型,能够在域外未校准的场景中运行,以预测和补全度量occupancy以及分割特征。OccAny具有通用性,可以从序列、单目或环视图像预测occupancy。我们的贡献有三方面:(i)我们提出了第一个广义的3D occupancy框架,(ii)分割强制(Segmentation Forcing)提高了occupancy质量,同时实现了mask级别的预测,以及(iii)一种新视角渲染(Novel View Rendering)流程,推断新视角几何体,以实现测试时视角增强以进行几何补全。大量的实验表明,OccAny在3D occupancy预测任务上优于所有视觉几何基线,同时在两个已建立的城市occupancy预测数据集上,在三种输入设置中与领域内自监督方法保持竞争力。
🔬 方法详解
问题定义:现有3D occupancy预测方法依赖于特定领域的标注数据和精确的传感器标定信息,导致模型在新的、未校准的城市环境中泛化能力较差。此外,现有方法在复杂、杂乱的城市场景中进行几何补全的能力也存在不足。
核心思路:OccAny的核心思路是利用视觉几何基础模型强大的泛化能力,并针对城市occupancy预测任务进行优化。通过引入分割强制和新视角渲染技术,提高模型在无约束场景下的度量occupancy预测和几何补全能力。这样设计的目的是为了克服现有方法对特定领域数据的依赖,并提升模型在实际应用中的鲁棒性。
技术框架:OccAny的整体框架包含以下几个主要模块:1) 特征提取模块:用于从输入图像(序列、单目或环视图像)中提取视觉特征。2) Occupancy预测模块:基于提取的视觉特征,预测3D空间的occupancy状态。3) 分割强制模块:利用分割信息来提高occupancy预测的质量,并实现mask级别的预测。4) 新视角渲染模块:通过推断新视角的几何信息,实现测试时视角增强,从而提高几何补全的准确性。
关键创新:OccAny的关键创新在于以下几点:1) 提出了第一个广义的3D occupancy框架,能够处理无约束的城市场景。2) 引入了分割强制技术,利用分割信息来提高occupancy预测的质量。3) 提出了新视角渲染流程,通过推断新视角的几何信息,实现测试时视角增强,从而提高几何补全的准确性。与现有方法相比,OccAny不再依赖于特定领域的数据和精确的传感器标定信息,具有更强的泛化能力。
关键设计:分割强制模块通过将分割预测结果与occupancy预测结果进行对齐,从而提高occupancy预测的准确性。新视角渲染模块利用可微分渲染技术,从预测的3D场景中渲染出新视角的图像,并与真实图像进行比较,从而优化3D场景的几何结构。具体的损失函数包括occupancy预测损失、分割损失和新视角渲染损失。网络结构方面,采用了Transformer等先进的神经网络架构。
📊 实验亮点
OccAny在3D occupancy预测任务上优于所有视觉几何基线。在nuScenes和SemanticKITTI数据集上,OccAny在不同输入设置下与领域内自监督方法保持竞争力。通过分割强制和新视角渲染,OccAny显著提高了在无约束场景下的度量occupancy预测和几何补全能力。
🎯 应用场景
OccAny在自动驾驶、城市规划、机器人导航等领域具有广泛的应用前景。它可以用于构建高精度的城市3D地图,帮助自动驾驶车辆进行环境感知和路径规划。此外,OccAny还可以用于城市规划和建筑设计,帮助设计师更好地理解和模拟城市环境。在机器人导航领域,OccAny可以帮助机器人在复杂的城市环境中进行自主导航。
📄 摘要(原文)
Relying on in-domain annotations and precise sensor-rig priors, existing 3D occupancy prediction methods are limited in both scalability and out-of-domain generalization. While recent visual geometry foundation models exhibit strong generalization capabilities, they were mainly designed for general purposes and lack one or more key ingredients required for urban occupancy prediction, namely metric prediction, geometry completion in cluttered scenes and adaptation to urban scenarios. We address this gap and present OccAny, the first unconstrained urban 3D occupancy model capable of operating on out-of-domain uncalibrated scenes to predict and complete metric occupancy coupled with segmentation features. OccAny is versatile and can predict occupancy from sequential, monocular, or surround-view images. Our contributions are three-fold: (i) we propose the first generalized 3D occupancy framework with (ii) Segmentation Forcing that improves occupancy quality while enabling mask-level prediction, and (iii) a Novel View Rendering pipeline that infers novel-view geometry to enable test-time view augmentation for geometry completion. Extensive experiments demonstrate that OccAny outperforms all visual geometry baselines on 3D occupancy prediction task, while remaining competitive with in-domain self-supervised methods across three input settings on two established urban occupancy prediction datasets. Our code is available at https://github.com/valeoai/OccAny .