FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction

作者: Zeyu Jiang, Changqing Zhou, Xingxing Zuo, Changhao Chen

分类: cs.RO, cs.CV

发布日期: 2026-04-30

备注: RSS 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出FreeOcc，一种无需训练的具身开放词汇占据预测框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 占据预测 开放词汇 无需训练 SLAM 视觉语言模型

📋 核心要点

现有占据预测方法依赖大量3D标注，泛化性差，难以适应新环境。
FreeOcc无需训练，利用SLAM、高斯更新和视觉-语言模型构建占据地图。
实验表明，FreeOcc在EmbodiedOcc-ScanNet和ReplicaOcc上显著优于现有方法。

📝 摘要（中文）

现有的基于学习的占据预测方法依赖于大规模3D标注，并且在不同环境中泛化能力较差。我们提出了FreeOcc，一个无需训练的框架，用于从单目或RGB-D序列中进行开放词汇占据预测。与先前需要体素级监督和真实相机姿态的方法不同，FreeOcc无需3D标注、姿态真值或任何学习阶段即可运行。FreeOcc通过一个四层流水线增量式地构建全局一致的占据地图：SLAM骨干网络估计姿态和稀疏几何；几何一致的高斯更新构建密集的3D高斯地图；来自现成视觉-语言模型的开放词汇语义与高斯基元相关联；概率高斯到占据投影产生密集的体素占据。尽管完全无需训练且与姿态无关，但与先前的自监督方法相比，FreeOcc在EmbodiedOcc-ScanNet上实现了超过2倍的IoU和mIoU提升。我们进一步引入了ReplicaOcc，一个用于室内开放词汇占据预测的基准，并表明FreeOcc可以零样本迁移到新的环境中，显著优于监督和自监督基线。

🔬 方法详解

问题定义：现有基于学习的占据预测方法需要大量的3D标注数据进行训练，这使得它们在新的、未见过的环境中泛化能力较差。此外，这些方法通常需要精确的相机姿态信息，这在实际应用中可能难以获得。因此，如何在没有大量标注数据和精确姿态信息的情况下，实现鲁棒的、可泛化的占据预测是一个关键问题。

核心思路：FreeOcc的核心思路是利用现成的（off-the-shelf）SLAM系统、视觉-语言模型和概率投影方法，构建一个无需训练的占据预测框架。通过SLAM估计相机姿态和稀疏几何信息，然后利用几何一致的高斯更新构建密集的3D高斯地图，再将视觉-语言模型的语义信息与高斯基元关联，最后通过概率投影将高斯表示转换为体素占据表示。

技术框架：FreeOcc的整体框架包含四个主要阶段：1) SLAM骨干网络：用于估计相机姿态和稀疏几何信息。2) 几何一致的高斯更新：利用SLAM的结果构建密集的3D高斯地图。3) 开放词汇语义关联：将视觉-语言模型的语义信息与高斯基元关联起来。4) 概率高斯到占据投影：将高斯表示转换为密集的体素占据表示。整个流程是增量式的，逐步构建全局一致的占据地图。

关键创新：FreeOcc最关键的创新在于其完全无需训练的特性。它避免了对大量3D标注数据的依赖，并且对相机姿态的精度要求较低。此外，它利用了现成的视觉-语言模型，实现了开放词汇的占据预测，即可以预测任意语义概念的占据情况，而不仅仅是预定义的类别。

关键设计：FreeOcc的关键设计包括：1) 使用高斯分布来表示3D几何信息，这使得可以有效地融合来自不同视角的观测结果。2) 利用几何一致性来更新高斯分布，从而减少噪声和误差的影响。3) 使用概率投影将高斯表示转换为体素占据表示，这可以有效地处理不确定性。4) 将视觉-语言模型的语义信息与高斯基元关联，从而实现开放词汇的占据预测。

🖼️ 关键图片

📊 实验亮点

FreeOcc在EmbodiedOcc-ScanNet数据集上实现了超过2倍的IoU和mIoU提升，显著优于先前的自监督方法。此外，FreeOcc在ReplicaOcc数据集上实现了零样本迁移，并在新的环境中显著优于监督和自监督基线。这些实验结果表明，FreeOcc具有很强的泛化能力和鲁棒性，可以在没有大量标注数据的情况下实现高性能的占据预测。

🎯 应用场景

FreeOcc在机器人导航、场景理解、虚拟现实和增强现实等领域具有广泛的应用前景。例如，机器人可以利用FreeOcc构建环境地图，从而实现自主导航和物体识别。在虚拟现实和增强现实中，FreeOcc可以用于创建逼真的3D场景，并支持用户与场景进行交互。未来，FreeOcc可以进一步扩展到动态环境和大规模场景中，为各种应用提供更强大的支持。

📄 摘要（原文）

Existing learning-based occupancy prediction methods rely on large-scale 3D annotations and generalize poorly across environments. We present FreeOcc, a training-free framework for open-vocabulary occupancy prediction from monocular or RGB-D sequences. Unlike prior approaches that require voxel-level supervision and ground-truth camera poses, FreeOcc operates without 3D annotations, pose ground truth, or any learning stage. FreeOcc incrementally builds a globally consistent occupancy map via a four-layer pipeline: a SLAM backbone estimates poses and sparse geometry; a geometrically consistent Gaussian update constructs dense 3D Gaussian maps; open-vocabulary semantics from off-the-shelf vision-language models are associated with Gaussian primitives; and a probabilistic Gaussian-to-occupancy projection produces dense voxel occupancy. Despite being entirely training-free and pose-agnostic, FreeOcc achieves over $2\times$ improvements in IoU and mIoU on EmbodiedOcc-ScanNet compared to prior self-supervised methods. We further introduce ReplicaOcc, a benchmark for indoor open-vocabulary occupancy prediction, and show that FreeOcc transfers zero-shot to novel environments, substantially outperforming both supervised and self-supervised baselines. Project page: https://the-masses.github.io/freeocc-web/.

FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理