DivAS: Interactive 3D Segmentation of NeRFs via Depth-Weighted Voxel Aggregation
作者: Ayush Pande
分类: cs.CV
发布日期: 2026-01-08
💡 一句话要点
DivAS:通过深度加权体素聚合实现NeRFs的交互式3D分割
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: NeRF分割 交互式分割 3D重建 体素聚合 深度先验
📋 核心要点
- 现有NeRF分割方法依赖优化,计算成本高,且无法利用2D基础模型的零样本能力。
- DivAS通过深度加权体素聚合,将用户交互的2D分割结果快速融合为3D分割,无需优化。
- 实验表明,DivAS在分割质量上与优化方法相当,但速度更快,尤其是在排除用户交互时间后。
📝 摘要(中文)
现有的NeRF分割方法通常基于优化,需要耗时的逐场景训练,牺牲了2D基础模型的零样本能力。我们提出了DivAS(深度交互式体素聚合分割),一个无需优化、完全交互式的框架,旨在解决这些局限性。我们的方法通过快速的GUI工作流程运行,其中从用户点提示生成的2D SAM掩码,通过NeRF导出的深度先验进行细化,以提高几何精度和前景-背景分离效果。我们的核心贡献是一个定制的CUDA内核,可在200毫秒内将这些细化的多视图掩码聚合到统一的3D体素网格中,从而实现实时的视觉反馈。这种无需优化的设计消除了逐场景训练的需要。在Mip-NeRF 360°和LLFF上的实验表明,DivAS实现了与基于优化的方法相当的分割质量,同时端到端速度提高了2-2.5倍,如果排除用户提示时间,速度提高了高达一个数量级。
🔬 方法详解
问题定义:现有的NeRF分割方法,例如基于优化的方法,需要针对每个场景进行单独训练,计算成本高昂。此外,这些方法无法有效利用预训练的2D分割模型(如SAM)的强大零样本泛化能力。因此,如何在不进行逐场景训练的情况下,实现快速、准确的NeRF分割是一个关键问题。
核心思路:DivAS的核心思路是利用用户交互的2D分割结果,结合NeRF提供的深度信息,通过深度加权体素聚合的方式,快速构建3D分割结果。通过这种方式,可以避免耗时的优化过程,并充分利用2D分割模型的先验知识。
技术框架:DivAS的整体框架包含以下几个主要步骤:1) 用户通过GUI界面提供点提示,用于生成2D分割掩码(例如使用SAM)。2) 利用NeRF渲染的深度图,对2D分割掩码进行深度先验的细化,以提高几何精度和前景-背景分离效果。3) 使用定制的CUDA内核,将细化后的多视图掩码聚合到3D体素网格中,生成最终的3D分割结果。整个过程是交互式的,用户可以根据分割结果进行调整和优化。
关键创新:DivAS最重要的创新点在于其无需优化的设计,以及定制的CUDA内核,能够实现快速的3D体素聚合。这使得DivAS能够在200毫秒内完成体素聚合,实现实时的视觉反馈,极大地提高了用户交互的效率。与现有方法相比,DivAS避免了耗时的逐场景训练,并能够有效利用2D分割模型的零样本能力。
关键设计:DivAS的关键设计包括:1) 使用深度信息对2D分割掩码进行细化,以提高分割的几何精度。具体来说,可以利用深度信息来调整掩码的边界,使其更符合3D场景的几何结构。2) 定制的CUDA内核,用于高效地进行体素聚合。该内核针对GPU架构进行了优化,能够实现快速的并行计算。3) GUI界面,方便用户进行交互和调整。用户可以通过GUI界面提供点提示,查看分割结果,并进行必要的修改。
📊 实验亮点
DivAS在Mip-NeRF 360°和LLFF数据集上进行了实验,结果表明,DivAS在分割质量上与基于优化的方法相当,但端到端速度提高了2-2.5倍,如果排除用户提示时间,速度提高了高达一个数量级。这表明DivAS在效率方面具有显著优势。
🎯 应用场景
DivAS可应用于机器人导航、场景理解、虚拟现实/增强现实等领域。例如,在机器人导航中,可以利用DivAS快速分割出场景中的障碍物,帮助机器人规划安全路径。在VR/AR应用中,可以用于对虚拟场景进行编辑和修改,例如快速分割出场景中的某个物体并进行替换。
📄 摘要(原文)
Existing methods for segmenting Neural Radiance Fields (NeRFs) are often optimization-based, requiring slow per-scene training that sacrifices the zero-shot capabilities of 2D foundation models. We introduce DivAS (Depth-interactive Voxel Aggregation Segmentation), an optimization-free, fully interactive framework that addresses these limitations. Our method operates via a fast GUI-based workflow where 2D SAM masks, generated from user point prompts, are refined using NeRF-derived depth priors to improve geometric accuracy and foreground-background separation. The core of our contribution is a custom CUDA kernel that aggregates these refined multi-view masks into a unified 3D voxel grid in under 200ms, enabling real-time visual feedback. This optimization-free design eliminates the need for per-scene training. Experiments on Mip-NeRF 360° and LLFF show that DivAS achieves segmentation quality comparable to optimization-based methods, while being 2-2.5x faster end-to-end, and up to an order of magnitude faster when excluding user prompting time.