Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
作者: Changqing Zhou, Yueru Luo, Han Zhang, Zeyu Jiang, Changhao Chen
分类: cs.CV
发布日期: 2026-02-26
备注: Accepted by CVPR2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于单目视觉的室内场景开放词汇占据预测方法,提升复杂环境理解能力。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目视觉 开放词汇 占据预测 室内场景 3D高斯 泊松重建 语义分割
📋 核心要点
- 现有开放词汇占据预测方法在室外场景表现良好,但难以适应室内场景复杂的几何结构和精细语义。
- 提出基于3D语言嵌入高斯的框架,结合几何和语义信息,并引入不透明度感知的泊松方法和渐进温度衰减策略。
- 在Occ-ScanNet数据集上,该方法在开放词汇设置中显著提升了IoU和mIoU,优于现有方法。
📝 摘要(中文)
开放词汇3D占据预测对于具身智能体至关重要,它们需要理解复杂的室内环境,其中语义类别丰富且不断演变,超越了固定的分类体系。虽然最近的工作已经探索了室外驾驶场景中的开放词汇占据预测,但这些方法在室内环境中表现不佳,因为室内环境几何结构更密集,布局更复杂,语义更精细。为了解决这些挑战,我们采用了一种仅使用二元占据标签(占据与空闲)的几何监督范式。我们的框架建立在3D语言嵌入高斯的基础上,它作为一种统一的中间表示,将精细的3D几何与语言对齐的语义嵌入相结合。在几何方面,我们发现现有的高斯到占据算子在这种弱监督下无法收敛,因此我们引入了一种感知不透明度的基于泊松的方法,以稳定体素聚合。在语义方面,渲染特征和开放词汇分割特征之间的直接对齐会受到特征混合的影响;因此,我们提出了一种渐进温度衰减策略,该策略在splatting期间逐渐锐化不透明度,从而加强高斯-语言对齐。在Occ-ScanNet上,我们的框架在开放词汇设置中实现了59.50的IoU和21.05的mIoU,在IoU方面超过了所有现有的占据方法,并且在mIoU方面大大优于先前的开放词汇方法。
🔬 方法详解
问题定义:论文旨在解决室内场景下单目视觉开放词汇占据预测问题。现有方法在室外场景表现良好,但由于室内环境几何结构复杂、语义信息精细,直接应用效果不佳。现有方法难以有效利用几何信息和语义信息进行融合,导致预测精度下降。
核心思路:论文的核心思路是利用3D语言嵌入高斯作为中间表示,将几何信息和语义信息进行有效融合。通过引入不透明度感知的泊松方法稳定体素聚合,并采用渐进温度衰减策略加强高斯-语言对齐,从而提升预测精度。
技术框架:整体框架包含以下几个主要模块:1) 单目图像特征提取;2) 3D语言嵌入高斯表示构建;3) 基于不透明度感知的泊松方法进行体素聚合;4) 基于渐进温度衰减策略进行高斯-语言对齐;5) 占据预测。该框架首先从单目图像中提取特征,然后构建3D语言嵌入高斯表示,接着利用不透明度感知的泊松方法将高斯表示聚合到体素网格中,并使用渐进温度衰减策略对齐高斯表示和语言嵌入,最后进行占据预测。
关键创新:论文的关键创新点在于:1) 提出了一种不透明度感知的泊松方法,用于稳定体素聚合,解决了现有高斯到占据算子在弱监督下难以收敛的问题;2) 提出了一种渐进温度衰减策略,用于加强高斯-语言对齐,解决了渲染特征和开放词汇分割特征之间的特征混合问题。
关键设计:在不透明度感知的泊松方法中,利用高斯的不透明度信息来指导泊松方程的求解,从而稳定体素聚合过程。在渐进温度衰减策略中,通过逐渐降低温度参数,使得高斯的不透明度在splatting过程中逐渐锐化,从而加强高斯表示和语言嵌入之间的对齐。
🖼️ 关键图片
📊 实验亮点
该方法在Occ-ScanNet数据集上取得了显著的性能提升。在开放词汇设置下,该方法实现了59.50的IoU和21.05的mIoU,在IoU方面超过了所有现有的占据方法,并且在mIoU方面大大优于先前的开放词汇方法。这表明该方法在室内场景开放词汇占据预测方面具有很强的竞争力。
🎯 应用场景
该研究成果可应用于机器人导航、场景理解、虚拟现实等领域。例如,机器人可以利用该方法理解室内环境,进行自主导航和物体识别。在虚拟现实中,该方法可以用于生成逼真的3D场景,提升用户体验。未来,该方法还可以扩展到其他领域,如智能家居、自动驾驶等。
📄 摘要(原文)
Open-vocabulary 3D occupancy is vital for embodied agents, which need to understand complex indoor environments where semantic categories are abundant and evolve beyond fixed taxonomies. While recent work has explored open-vocabulary occupancy in outdoor driving scenarios, such methods transfer poorly indoors, where geometry is denser, layouts are more intricate, and semantics are far more fine-grained. To address these challenges, we adopt a geometry-only supervision paradigm that uses only binary occupancy labels (occupied vs free). Our framework builds upon 3D Language-Embedded Gaussians, which serve as a unified intermediate representation coupling fine-grained 3D geometry with a language-aligned semantic embedding. On the geometry side, we find that existing Gaussian-to-Occupancy operators fail to converge under such weak supervision, and we introduce an opacity-aware, Poisson-based approach that stabilizes volumetric aggregation. On the semantic side, direct alignment between rendered features and open-vocabulary segmentation features suffers from feature mixing; we therefore propose a Progressive Temperature Decay schedule that gradually sharpens opacities during splatting, strengthening Gaussian-language alignment. On Occ-ScanNet, our framework achieves 59.50 IoU and 21.05 mIoU in the open-vocabulary setting, surpassing all existing occupancy methods in IoU and outperforming prior open-vocabulary approaches by a large margin in mIoU. Code will be released at https://github.com/JuIvyy/LegoOcc.