Monocular Semantic Scene Completion via Masked Recurrent Networks

📄 arXiv: 2507.17661v1 📥 PDF

作者: Xuzhi Wang, Xinran Wu, Song Wang, Lingdong Kong, Ziping Zhao

分类: cs.CV, cs.RO

发布日期: 2025-07-23

备注: ICCV 2025; 15 pages, 10 figures, 6 tables; Code at https://github.com/alanWXZ/MonoMRN


💡 一句话要点

提出基于掩码循环网络的单目语义场景补全方法,提升复杂场景补全效果。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目语义场景补全 循环神经网络 掩码机制 距离注意力 三维重建

📋 核心要点

  1. 现有单目语义场景补全方法在复杂场景中表现不佳,主要受限于单阶段框架和不准确的深度估计。
  2. 论文提出两阶段框架,利用掩码循环网络专注于已占据区域,并采用距离注意力机制减少投影误差。
  3. 实验表明,该方法在室内外场景数据集上均达到SOTA,并具有良好的抗扰动鲁棒性。

📝 摘要(中文)

单目语义场景补全(MSSC)旨在从单视角RGB图像预测体素级的占据情况和语义类别。现有方法采用单阶段框架,同时实现可见区域分割和遮挡区域的幻构,并且容易受到不准确深度估计的影响,导致次优性能,尤其是在复杂场景中。本文提出一种新的两阶段框架,将MSSC分解为粗略MSSC,然后使用掩码循环网络。具体而言,我们提出了掩码稀疏门控循环单元(MS-GRU),通过提出的掩码更新机制专注于已占据区域,并提出了一种稀疏GRU设计以降低计算成本。此外,我们提出了距离注意力投影,通过根据到观察表面的距离分配不同的注意力分数来减少投影误差。实验结果表明,我们提出的统一框架MonoMRN有效地支持室内和室外场景,并在NYUv2和SemanticKITTI数据集上实现了最先进的性能。此外,我们进行了各种扰动下的鲁棒性分析,突出了掩码循环网络在增强模型对这些挑战的适应能力方面的作用。源代码已公开。

🔬 方法详解

问题定义:单目语义场景补全(MSSC)旨在从单张RGB图像中推断出场景的三维体素表示,包括每个体素的占据状态和语义类别。现有方法通常采用单阶段框架,同时处理可见区域的分割和遮挡区域的补全。然而,这些方法容易受到深度估计误差的影响,尤其是在复杂场景中,导致补全效果不佳。

核心思路:本文的核心思路是将MSSC任务分解为两个阶段:首先进行粗略的场景补全,然后利用掩码循环网络(Masked Recurrent Network)对粗略结果进行精细化。掩码循环网络通过关注已占据区域,并利用距离注意力机制减少投影误差,从而提高补全的准确性和鲁棒性。

技术框架:该方法采用两阶段框架。第一阶段进行粗略的MSSC,可以使用现有的方法。第二阶段是Masked Recurrent Network,它包含以下几个关键模块:1) Mask Updating Mechanism:用于更新掩码,关注已占据区域。2) Masked Sparse Gated Recurrent Unit (MS-GRU):一种稀疏GRU设计,降低计算成本。3) Distance Attention Projection:根据到观察表面的距离分配不同的注意力分数,减少投影误差。

关键创新:该方法的主要创新点在于Masked Recurrent Network的设计,特别是MS-GRU和Distance Attention Projection。MS-GRU通过掩码机制专注于已占据区域,提高了计算效率和补全精度。Distance Attention Projection则通过引入距离信息,减少了投影误差,进一步提升了补全效果。

关键设计:MS-GRU的关键设计在于掩码更新机制和稀疏GRU结构。掩码更新机制根据GRU的输出动态更新掩码,使其能够自适应地关注已占据区域。稀疏GRU结构则通过减少不必要的计算,降低了计算成本。Distance Attention Projection的关键设计在于注意力权重的计算方式,它根据体素到观察表面的距离,为每个体素分配不同的注意力权重。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该方法在NYUv2和SemanticKITTI数据集上均取得了state-of-the-art的性能。相较于现有方法,该方法在场景补全的准确性和鲁棒性方面均有显著提升。此外,鲁棒性分析表明,Masked Recurrent Network能够有效增强模型对各种扰动的适应能力。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实和增强现实等领域。通过单目图像进行场景补全,可以帮助机器人更好地理解周围环境,从而实现更安全、更智能的导航。在自动驾驶领域,可以提高车辆对遮挡物体的感知能力,从而提高驾驶安全性。在VR/AR领域,可以生成更逼真的三维场景,提升用户体验。

📄 摘要(原文)

Monocular Semantic Scene Completion (MSSC) aims to predict the voxel-wise occupancy and semantic category from a single-view RGB image. Existing methods adopt a single-stage framework that aims to simultaneously achieve visible region segmentation and occluded region hallucination, while also being affected by inaccurate depth estimation. Such methods often achieve suboptimal performance, especially in complex scenes. We propose a novel two-stage framework that decomposes MSSC into coarse MSSC followed by the Masked Recurrent Network. Specifically, we propose the Masked Sparse Gated Recurrent Unit (MS-GRU) which concentrates on the occupied regions by the proposed mask updating mechanism, and a sparse GRU design is proposed to reduce the computation cost. Additionally, we propose the distance attention projection to reduce projection errors by assigning different attention scores according to the distance to the observed surface. Experimental results demonstrate that our proposed unified framework, MonoMRN, effectively supports both indoor and outdoor scenes and achieves state-of-the-art performance on the NYUv2 and SemanticKITTI datasets. Furthermore, we conduct robustness analysis under various disturbances, highlighting the role of the Masked Recurrent Network in enhancing the model's resilience to such challenges. The source code is publicly available.