Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

📄 arXiv: 2602.22667 📥 PDF

作者: Changqing Zhou, Yueru Luo, Han Zhang, Zeyu Jiang, Changhao Chen

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出基于单目视觉的室内场景开放词汇占据预测方法,提升复杂环境理解能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇占据预测 单目视觉 室内场景理解 3D高斯模型 几何监督

📋 核心要点

  1. 现有开放词汇占据预测方法在室外场景表现良好,但难以适应室内场景几何密集、语义精细的特点。
  2. 该方法利用3D语言嵌入高斯模型,结合几何监督和语义对齐,实现细粒度的室内场景理解。
  3. 实验结果表明,该方法在Occ-ScanNet数据集上显著提升了开放词汇占据预测的IoU和mIoU。

📝 摘要(中文)

本文提出了一种用于室内场景的单目开放词汇占据预测方法,旨在解决具身智能体理解复杂室内环境的需求。现有方法在室外驾驶场景表现良好,但难以直接迁移到几何更密集、布局更复杂、语义更精细的室内环境。该方法采用仅使用二元占据标签(占据/空闲)的几何监督范式,并基于3D语言嵌入高斯模型,将细粒度的3D几何信息与语言对齐的语义嵌入相结合。针对现有高斯到占据算子在弱监督下难以收敛的问题,提出了一种基于不透明度感知的泊松方法来稳定体素聚合。针对渲染特征与开放词汇分割特征直接对齐时存在的特征混合问题,提出了一种渐进式温度衰减策略,在splatting过程中逐步锐化不透明度,从而加强高斯-语言对齐。在Occ-ScanNet数据集上,该方法在开放词汇设置下实现了59.50的IoU和21.05的mIoU,在IoU上超越了所有现有的占据方法,并在mIoU上大幅优于先前的开放词汇方法。

🔬 方法详解

问题定义:论文旨在解决室内场景中,具身智能体对开放词汇3D占据的理解问题。现有方法,尤其是在室外驾驶场景下表现良好的方法,无法直接应用于室内环境。室内环境的几何结构更加复杂和密集,语义更加细粒度,导致现有方法性能下降。此外,现有方法通常依赖于密集的语义标注,而获取这些标注成本高昂。

核心思路:论文的核心思路是利用几何监督来学习3D占据,并结合语言嵌入来实现开放词汇的语义理解。通过仅使用二元占据标签(占据/空闲)作为监督信号,降低了对密集语义标注的依赖。同时,利用3D语言嵌入高斯模型,将几何信息和语义信息进行有效融合,从而实现对室内场景的细粒度理解。

技术框架:整体框架基于3D语言嵌入高斯模型。首先,利用单目图像预测3D高斯分布,每个高斯分布携带几何信息和语言嵌入。然后,通过改进的高斯到占据算子,将高斯分布聚合为体素占据。为了实现开放词汇的语义理解,将渲染的特征与开放词汇分割特征进行对齐。框架包含以下主要模块:3D高斯预测模块、高斯到占据转换模块、语义对齐模块。

关键创新:论文的关键创新点包括:1) 提出了一种不透明度感知的泊松方法,用于稳定高斯到占据的体素聚合,解决了在弱监督下现有方法难以收敛的问题。2) 提出了一种渐进式温度衰减策略,用于在splatting过程中逐步锐化不透明度,从而加强高斯-语言对齐,解决了渲染特征与开放词汇分割特征直接对齐时存在的特征混合问题。

关键设计:在不透明度感知的泊松方法中,利用高斯分布的不透明度作为权重,来解决体素聚合过程中的噪声问题。在渐进式温度衰减策略中,温度参数控制splatting过程中不透明度的锐化程度,通过逐渐降低温度,使得高斯分布的语义信息更加集中,从而提高语义对齐的准确性。损失函数包括几何损失和语义对齐损失,几何损失用于约束3D占据的预测,语义对齐损失用于约束高斯分布的语言嵌入与开放词汇分割特征的对齐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在Occ-ScanNet数据集上取得了显著的性能提升。在开放词汇设置下,该方法实现了59.50的IoU和21.05的mIoU,在IoU上超越了所有现有的占据方法,并在mIoU上大幅优于先前的开放词汇方法。这表明该方法能够有效地理解室内场景的几何结构和语义信息。

🎯 应用场景

该研究成果可应用于室内机器人导航、场景理解、虚拟现实等领域。例如,机器人可以利用该方法理解室内环境,从而实现自主导航和物体识别。在虚拟现实中,该方法可以用于生成逼真的室内场景,并支持用户与场景进行交互。未来,该方法可以进一步扩展到更复杂的场景,并与其他感知模态相结合,从而实现更强大的环境理解能力。

📄 摘要(原文)

Open-vocabulary 3D occupancy is vital for embodied agents, which need to understand complex indoor environments where semantic categories are abundant and evolve beyond fixed taxonomies. While recent work has explored open-vocabulary occupancy in outdoor driving scenarios, such methods transfer poorly indoors, where geometry is denser, layouts are more intricate, and semantics are far more fine-grained. To address these challenges, we adopt a geometry-only supervision paradigm that uses only binary occupancy labels (occupied vs free). Our framework builds upon 3D Language-Embedded Gaussians, which serve as a unified intermediate representation coupling fine-grained 3D geometry with a language-aligned semantic embedding. On the geometry side, we find that existing Gaussian-to-Occupancy operators fail to converge under such weak supervision, and we introduce an opacity-aware, Poisson-based approach that stabilizes volumetric aggregation. On the semantic side, direct alignment between rendered features and open-vocabulary segmentation features suffers from feature mixing; we therefore propose a Progressive Temperature Decay schedule that gradually sharpens opacities during splatting, strengthening Gaussian-language alignment. On Occ-ScanNet, our framework achieves 59.50 IoU and 21.05 mIoU in the open-vocabulary setting, surpassing all existing occupancy methods in IoU and outperforming prior open-vocabulary approaches by a large margin in mIoU. Code will be released atthis https URL.