FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction
作者: Zeyu Jiang, Changqing Zhou, Xingxing Zuo, Changhao Chen
分类: cs.RO, cs.CV
发布日期: 2026-04-30
备注: RSS 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出FreeOcc,一种无需训练的具身开放词汇占据预测框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 占据预测 开放词汇 无需训练 SLAM 视觉语言模型
📋 核心要点
- 现有占据预测方法依赖大量3D标注,泛化性差,难以适应新环境。
- FreeOcc无需训练,利用SLAM、高斯更新和视觉-语言模型构建占据地图。
- 实验表明,FreeOcc在EmbodiedOcc-ScanNet和ReplicaOcc上显著优于现有方法。
📝 摘要(中文)
现有的基于学习的占据预测方法依赖于大规模3D标注,并且在不同环境中泛化能力较差。我们提出了FreeOcc,一个无需训练的框架,用于从单目或RGB-D序列中进行开放词汇占据预测。与先前需要体素级监督和真实相机姿态的方法不同,FreeOcc无需3D标注、姿态真值或任何学习阶段即可运行。FreeOcc通过一个四层流水线增量式地构建全局一致的占据地图:SLAM骨干网络估计姿态和稀疏几何;几何一致的高斯更新构建密集的3D高斯地图;来自现成视觉-语言模型的开放词汇语义与高斯基元相关联;概率高斯到占据投影产生密集的体素占据。尽管完全无需训练且与姿态无关,但与先前的自监督方法相比,FreeOcc在EmbodiedOcc-ScanNet上实现了超过2倍的IoU和mIoU提升。我们进一步引入了ReplicaOcc,一个用于室内开放词汇占据预测的基准,并表明FreeOcc可以零样本迁移到新的环境中,显著优于监督和自监督基线。
🔬 方法详解
问题定义:现有基于学习的占据预测方法需要大量的3D标注数据进行训练,这使得它们在新的、未见过的环境中泛化能力较差。此外,这些方法通常需要精确的相机姿态信息,这在实际应用中可能难以获得。因此,如何在没有大量标注数据和精确姿态信息的情况下,实现鲁棒的、可泛化的占据预测是一个关键问题。
核心思路:FreeOcc的核心思路是利用现成的(off-the-shelf)SLAM系统、视觉-语言模型和概率投影方法,构建一个无需训练的占据预测框架。通过SLAM估计相机姿态和稀疏几何信息,然后利用几何一致的高斯更新构建密集的3D高斯地图,再将视觉-语言模型的语义信息与高斯基元关联,最后通过概率投影将高斯表示转换为体素占据表示。
技术框架:FreeOcc的整体框架包含四个主要阶段:1) SLAM骨干网络:用于估计相机姿态和稀疏几何信息。2) 几何一致的高斯更新:利用SLAM的结果构建密集的3D高斯地图。3) 开放词汇语义关联:将视觉-语言模型的语义信息与高斯基元关联起来。4) 概率高斯到占据投影:将高斯表示转换为密集的体素占据表示。整个流程是增量式的,逐步构建全局一致的占据地图。
关键创新:FreeOcc最关键的创新在于其完全无需训练的特性。它避免了对大量3D标注数据的依赖,并且对相机姿态的精度要求较低。此外,它利用了现成的视觉-语言模型,实现了开放词汇的占据预测,即可以预测任意语义概念的占据情况,而不仅仅是预定义的类别。
关键设计:FreeOcc的关键设计包括:1) 使用高斯分布来表示3D几何信息,这使得可以有效地融合来自不同视角的观测结果。2) 利用几何一致性来更新高斯分布,从而减少噪声和误差的影响。3) 使用概率投影将高斯表示转换为体素占据表示,这可以有效地处理不确定性。4) 将视觉-语言模型的语义信息与高斯基元关联,从而实现开放词汇的占据预测。
🖼️ 关键图片
📊 实验亮点
FreeOcc在EmbodiedOcc-ScanNet数据集上实现了超过2倍的IoU和mIoU提升,显著优于先前的自监督方法。此外,FreeOcc在ReplicaOcc数据集上实现了零样本迁移,并在新的环境中显著优于监督和自监督基线。这些实验结果表明,FreeOcc具有很强的泛化能力和鲁棒性,可以在没有大量标注数据的情况下实现高性能的占据预测。
🎯 应用场景
FreeOcc在机器人导航、场景理解、虚拟现实和增强现实等领域具有广泛的应用前景。例如,机器人可以利用FreeOcc构建环境地图,从而实现自主导航和物体识别。在虚拟现实和增强现实中,FreeOcc可以用于创建逼真的3D场景,并支持用户与场景进行交互。未来,FreeOcc可以进一步扩展到动态环境和大规模场景中,为各种应用提供更强大的支持。
📄 摘要(原文)
Existing learning-based occupancy prediction methods rely on large-scale 3D annotations and generalize poorly across environments. We present FreeOcc, a training-free framework for open-vocabulary occupancy prediction from monocular or RGB-D sequences. Unlike prior approaches that require voxel-level supervision and ground-truth camera poses, FreeOcc operates without 3D annotations, pose ground truth, or any learning stage. FreeOcc incrementally builds a globally consistent occupancy map via a four-layer pipeline: a SLAM backbone estimates poses and sparse geometry; a geometrically consistent Gaussian update constructs dense 3D Gaussian maps; open-vocabulary semantics from off-the-shelf vision-language models are associated with Gaussian primitives; and a probabilistic Gaussian-to-occupancy projection produces dense voxel occupancy. Despite being entirely training-free and pose-agnostic, FreeOcc achieves over $2\times$ improvements in IoU and mIoU on EmbodiedOcc-ScanNet compared to prior self-supervised methods. We further introduce ReplicaOcc, a benchmark for indoor open-vocabulary occupancy prediction, and show that FreeOcc transfers zero-shot to novel environments, substantially outperforming both supervised and self-supervised baselines. Project page: https://the-masses.github.io/freeocc-web/.