From Implicit Ambiguity to Explicit Solidity: Diagnosing Interior Geometric Degradation in Neural Radiance Fields for Dense 3D Scene Understanding
作者: Jiangsan Zhao, Jakob Geipel, Kryzysztof Kusnierek
分类: cs.CV
发布日期: 2026-01-29
💡 一句话要点
揭示NeRF在密集场景中几何退化问题,提出基于体素栅格化的显式几何重建方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经辐射场 三维重建 密集场景 几何退化 体素栅格化
📋 核心要点
- NeRF在密集场景中存在内部几何退化(IGD)问题,导致空心或碎片化重建,实例计数不准确。
- 提出基于稀疏体素栅格化(SVRaster)的显式几何重建流程,利用SfM初始化,保持物理实体性。
- 实验表明,该方法在密集场景中实例恢复率达到95.8%,优于NeRF,且对监督失败更鲁棒。
📝 摘要(中文)
神经辐射场(NeRFs)已成为多视角重建的强大范例,是对基于运动结构恢复(SfM)和多视角立体(MVS)的经典摄影测量流程的补充。然而,它们在密集、自遮挡场景中进行定量3D分析的可靠性仍然知之甚少。本研究发现了一种隐式密度场在严重遮挡下的根本性失效模式,我们称之为内部几何退化(IGD)。我们表明,基于透射率的体渲染优化通过重建空心或碎片化的结构而非实体内部来满足光度监督,从而导致系统性的实例数量低估。通过在具有递增遮挡的合成数据集上进行受控实验,我们证明了最先进的掩码监督NeRFs在密集场景中实例恢复率饱和在约89%,尽管表面连贯性和掩码质量有所提高。为了克服这一限制,我们引入了一种基于稀疏体素栅格化(SVRaster)的显式几何流程,该流程由SfM特征几何初始化。通过将2D实例掩码投影到显式体素网格上,并通过递归分割强制执行几何分离,我们的方法保持了物理实体性,并在密集集群中实现了95.8%的恢复率。使用退化的分割掩码进行的敏感性分析进一步表明,基于显式SfM的几何结构对监督失败具有更强的鲁棒性,比隐式基线多恢复43%的实例。这些结果表明,显式几何先验是在高度自遮挡3D场景中进行可靠定量分析的先决条件。
🔬 方法详解
问题定义:论文旨在解决NeRF在密集、自遮挡场景下进行3D重建时出现的内部几何退化(IGD)问题。现有NeRF方法在严重遮挡下,倾向于重建空心或碎片化的结构,无法准确恢复物体的内部几何信息,导致实例数量的低估。这种现象限制了NeRF在需要精确3D分析的应用中的可靠性。
核心思路:论文的核心思路是引入显式的几何先验来克服NeRF的隐式表达的局限性。通过将SfM得到的稀疏几何结构作为初始化,并结合体素栅格化技术,强制重建结果保持物理实体性,避免出现空心或碎片化的结构。这种显式几何表达能够更好地利用2D分割信息,提高在遮挡情况下的重建质量。
技术框架:整体流程包括以下几个主要阶段:1) 使用SfM从多视角图像中重建稀疏点云;2) 基于稀疏点云初始化稀疏体素栅格(SVRaster);3) 将2D实例掩码投影到3D体素网格上,为每个体素分配实例标签;4) 通过递归分割体素,强制执行几何分离,确保每个体素只包含一个实例;5) 对体素进行优化,得到最终的3D重建结果。
关键创新:最重要的技术创新点在于引入了基于稀疏体素栅格的显式几何表达。与NeRF的隐式密度场相比,显式几何表达能够更好地约束重建结果的物理合理性,避免出现空心或碎片化的结构。此外,通过递归分割体素,能够有效地分离相邻的实例,提高实例分割的准确性。
关键设计:关键设计包括:1) 使用SfM初始化SVRaster,提供初始的几何先验;2) 设计递归分割算法,根据实例标签分割体素,确保几何分离;3) 使用投影的2D掩码作为监督信号,优化体素的颜色和密度;4) 采用合适的体素大小和分割阈值,平衡重建精度和计算效率。
📊 实验亮点
实验结果表明,该方法在密集场景中实例恢复率达到95.8%,显著优于基于NeRF的隐式方法(约89%)。此外,敏感性分析表明,该方法对退化的分割掩码具有更强的鲁棒性,比隐式基线多恢复43%的实例。这些结果验证了显式几何先验在密集场景3D重建中的重要性。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、场景理解等领域。在这些场景中,准确的3D重建和实例分割至关重要。例如,机器人需要准确地感知周围环境中的物体,才能进行有效的导航和操作。该方法可以提高在复杂、遮挡环境下的3D重建精度,从而提升机器人的感知能力。
📄 摘要(原文)
Neural Radiance Fields (NeRFs) have emerged as a powerful paradigm for multi-view reconstruction, complementing classical photogrammetric pipelines based on Structure-from-Motion (SfM) and Multi-View Stereo (MVS). However, their reliability for quantitative 3D analysis in dense, self-occluding scenes remains poorly understood. In this study, we identify a fundamental failure mode of implicit density fields under heavy occlusion, which we term Interior Geometric Degradation (IGD). We show that transmittance-based volumetric optimization satisfies photometric supervision by reconstructing hollow or fragmented structures rather than solid interiors, leading to systematic instance undercounting. Through controlled experiments on synthetic datasets with increasing occlusion, we demonstrate that state-of-the-art mask-supervised NeRFs saturate at approximately 89% instance recovery in dense scenes, despite improved surface coherence and mask quality. To overcome this limitation, we introduce an explicit geometric pipeline based on Sparse Voxel Rasterization (SVRaster), initialized from SfM feature geometry. By projecting 2D instance masks onto an explicit voxel grid and enforcing geometric separation via recursive splitting, our approach preserves physical solidity and achieves a 95.8% recovery rate in dense clusters. A sensitivity analysis using degraded segmentation masks further shows that explicit SfM-based geometry is substantially more robust to supervision failure, recovering 43% more instances than implicit baselines. These results demonstrate that explicit geometric priors are a prerequisite for reliable quantitative analysis in highly self-occluding 3D scenes.