EasyOcc: 3D Pseudo-Label Supervision for Fully Self-Supervised Semantic Occupancy Prediction Models

📄 arXiv: 2509.26087v3 📥 PDF

作者: Seamie Hayes, Ganesh Sistu, Ciarán Eising

分类: cs.CV

发布日期: 2025-09-30 (更新: 2025-11-27)


💡 一句话要点

EasyOcc:利用3D伪标签监督实现全自监督语义占据预测模型,显著提升性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义占据预测 自监督学习 伪标签 基础模型 时序信息

📋 核心要点

  1. 现有自监督语义占据预测模型依赖复杂渲染策略,计算成本高昂,且不易迁移到其他架构。
  2. 利用Grounded-SAM和Metric3Dv2等基础模型生成3D伪标签,并结合时序信息进行标签稠密化,降低计算成本。
  3. EasyOcc模型仅使用伪标签学习,避免复杂渲染,并在多个指标上超越现有方法,尤其在完整场景评估中提升显著。

📝 摘要(中文)

本文提出了一种用于全自监督语义占据预测模型的3D伪标签监督方法。现有自监督模型通常依赖复杂的损失计算策略来弥补真实标签的缺失,例如新视角合成、跨视角渲染和深度估计等,但这些方法计算成本和内存消耗高昂,尤其是在新视角合成中。为了解决这些问题,我们利用基础模型Grounded-SAM和Metric3Dv2生成3D伪标签,并结合时序信息进行标签稠密化。这些3D伪标签可以轻松集成到现有模型中,显著提升性能,例如在OccNeRF模型中实现了45%的mIoU提升(从9.73到14.09)。此外,我们提出了一个精简模型EasyOcc,仅从我们的伪标签中学习,避免了复杂的渲染策略,实现了13.86的mIoU。在完整场景评估中,EasyOcc达到了7.71的mIoU,超越了之前的最佳模型31%。这些结果表明了基础模型、时序上下文和损失计算空间在自监督学习中对于全面场景理解的关键作用。

🔬 方法详解

问题定义:现有自监督语义占据预测模型依赖于复杂的损失计算策略,例如新视角合成、跨视角渲染和深度估计等,来弥补真实标签的缺失。这些方法的主要痛点在于计算成本高昂,内存消耗大,尤其是在新视角合成中,限制了模型的训练效率和可扩展性。此外,一些方法不易迁移到其他架构。

核心思路:本文的核心思路是利用预训练的基础模型(Grounded-SAM和Metric3Dv2)生成高质量的3D伪标签,并结合时序信息进行标签稠密化。通过使用这些伪标签作为监督信号,可以避免复杂的渲染策略,从而降低计算成本和内存消耗。这种方法的设计基于基础模型强大的语义理解和几何推理能力,以及时序信息提供的上下文一致性。

技术框架:整体框架包含以下几个主要阶段:1) 利用Grounded-SAM和Metric3Dv2等基础模型生成初始的3D伪标签;2) 利用时序信息对伪标签进行稠密化,提高标签的质量和覆盖率;3) 使用生成的3D伪标签作为监督信号,训练语义占据预测模型,例如OccNeRF或EasyOcc。EasyOcc模型是一个精简的模型,专门设计用于从伪标签中学习。

关键创新:最重要的技术创新点在于利用预训练的基础模型生成3D伪标签,并将其应用于自监督语义占据预测任务。与现有方法相比,该方法避免了复杂的渲染策略,降低了计算成本和内存消耗。此外,该方法具有良好的可迁移性,可以轻松集成到现有模型中。另一个创新点是利用时序信息进行标签稠密化,进一步提高了伪标签的质量。

关键设计:论文中使用了Grounded-SAM进行图像分割,并使用Metric3Dv2进行深度估计和3D重建,从而生成3D伪标签。时序信息的利用可能涉及到光流估计或SLAM等技术,以跟踪场景中的物体运动,并传播伪标签。损失函数的设计可能包括交叉熵损失或Dice损失等,用于衡量预测结果与伪标签之间的差异。EasyOcc模型的网络结构细节未知,但推测可能是一个轻量级的3D卷积神经网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著提升自监督语义占据预测模型的性能。例如,在OccNeRF模型中,集成了该方法后,mIoU提升了45%(从9.73到14.09)。提出的精简模型EasyOcc,仅从伪标签中学习,就达到了13.86的mIoU。在完整场景评估中,EasyOcc达到了7.71的mIoU,超越了之前的最佳模型31%。这些结果表明了该方法在提升性能和降低计算成本方面的优势。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、增强现实等领域。通过提供低成本、高效的语义场景理解能力,可以提升自动驾驶系统的安全性,增强机器人在复杂环境中的适应性,并为AR应用提供更逼真的场景渲染。未来,该方法有望进一步扩展到其他感知任务,例如目标检测和场景重建。

📄 摘要(原文)

Self-supervised models have recently achieved notable advancements, particularly in the domain of semantic occupancy prediction. These models utilize sophisticated loss computation strategies to compensate for the absence of ground-truth labels. For instance, techniques such as novel view synthesis, cross-view rendering, and depth estimation have been explored to address the issue of semantic and depth ambiguity. However, such techniques typically incur high computational costs and memory usage during the training stage, especially in the case of novel view synthesis. To mitigate these issues, we propose 3D pseudo-ground-truth labels generated by the foundation models Grounded-SAM and Metric3Dv2, and harness temporal information for label densification. Our 3D pseudo-labels can be easily integrated into existing models, which yields substantial performance improvements, with mIoU increasing by 45\%, from 9.73 to 14.09, when implemented into the OccNeRF model. This stands in contrast to earlier advancements in the field, which are often not readily transferable to other architectures. Additionally, we propose a streamlined model, EasyOcc, achieving 13.86 mIoU. This model conducts learning solely from our labels, avoiding complex rendering strategies mentioned previously. Furthermore, our method enables models to attain state-of-the-art performance when evaluated on the full scene without applying the camera mask, with EasyOcc achieving 7.71 mIoU, outperforming the previous best model by 31\%. These findings highlight the critical importance of foundation models, temporal context, and the choice of loss computation space in self-supervised learning for comprehensive scene understanding.