DivAS: Interactive 3D Segmentation of NeRFs via Depth-Weighted Voxel Aggregation

作者: Ayush Pande

分类: cs.CV

发布日期: 2026-01-08

💡 一句话要点

DivAS：通过深度加权体素聚合实现NeRFs的交互式3D分割

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: NeRF分割 交互式分割 3D重建 体素聚合 深度先验

📋 核心要点

现有NeRF分割方法依赖优化，计算成本高，且无法利用2D基础模型的零样本能力。
DivAS通过深度加权体素聚合，将用户交互的2D分割结果快速融合为3D分割，无需优化。
实验表明，DivAS在分割质量上与优化方法相当，但速度更快，尤其是在排除用户交互时间后。

📝 摘要（中文）

现有的NeRF分割方法通常基于优化，需要耗时的逐场景训练，牺牲了2D基础模型的零样本能力。我们提出了DivAS（深度交互式体素聚合分割），一个无需优化、完全交互式的框架，旨在解决这些局限性。我们的方法通过快速的GUI工作流程运行，其中从用户点提示生成的2D SAM掩码，通过NeRF导出的深度先验进行细化，以提高几何精度和前景-背景分离效果。我们的核心贡献是一个定制的CUDA内核，可在200毫秒内将这些细化的多视图掩码聚合到统一的3D体素网格中，从而实现实时的视觉反馈。这种无需优化的设计消除了逐场景训练的需要。在Mip-NeRF 360°和LLFF上的实验表明，DivAS实现了与基于优化的方法相当的分割质量，同时端到端速度提高了2-2.5倍，如果排除用户提示时间，速度提高了高达一个数量级。

🔬 方法详解

问题定义：现有的NeRF分割方法，例如基于优化的方法，需要针对每个场景进行单独训练，计算成本高昂。此外，这些方法无法有效利用预训练的2D分割模型（如SAM）的强大零样本泛化能力。因此，如何在不进行逐场景训练的情况下，实现快速、准确的NeRF分割是一个关键问题。

核心思路：DivAS的核心思路是利用用户交互的2D分割结果，结合NeRF提供的深度信息，通过深度加权体素聚合的方式，快速构建3D分割结果。通过这种方式，可以避免耗时的优化过程，并充分利用2D分割模型的先验知识。

技术框架：DivAS的整体框架包含以下几个主要步骤：1) 用户通过GUI界面提供点提示，用于生成2D分割掩码（例如使用SAM）。2) 利用NeRF渲染的深度图，对2D分割掩码进行深度先验的细化，以提高几何精度和前景-背景分离效果。3) 使用定制的CUDA内核，将细化后的多视图掩码聚合到3D体素网格中，生成最终的3D分割结果。整个过程是交互式的，用户可以根据分割结果进行调整和优化。

关键创新：DivAS最重要的创新点在于其无需优化的设计，以及定制的CUDA内核，能够实现快速的3D体素聚合。这使得DivAS能够在200毫秒内完成体素聚合，实现实时的视觉反馈，极大地提高了用户交互的效率。与现有方法相比，DivAS避免了耗时的逐场景训练，并能够有效利用2D分割模型的零样本能力。

关键设计：DivAS的关键设计包括：1) 使用深度信息对2D分割掩码进行细化，以提高分割的几何精度。具体来说，可以利用深度信息来调整掩码的边界，使其更符合3D场景的几何结构。2) 定制的CUDA内核，用于高效地进行体素聚合。该内核针对GPU架构进行了优化，能够实现快速的并行计算。3) GUI界面，方便用户进行交互和调整。用户可以通过GUI界面提供点提示，查看分割结果，并进行必要的修改。

📊 实验亮点

DivAS在Mip-NeRF 360°和LLFF数据集上进行了实验，结果表明，DivAS在分割质量上与基于优化的方法相当，但端到端速度提高了2-2.5倍，如果排除用户提示时间，速度提高了高达一个数量级。这表明DivAS在效率方面具有显著优势。

🎯 应用场景

DivAS可应用于机器人导航、场景理解、虚拟现实/增强现实等领域。例如，在机器人导航中，可以利用DivAS快速分割出场景中的障碍物，帮助机器人规划安全路径。在VR/AR应用中，可以用于对虚拟场景进行编辑和修改，例如快速分割出场景中的某个物体并进行替换。

📄 摘要（原文）

Existing methods for segmenting Neural Radiance Fields (NeRFs) are often optimization-based, requiring slow per-scene training that sacrifices the zero-shot capabilities of 2D foundation models. We introduce DivAS (Depth-interactive Voxel Aggregation Segmentation), an optimization-free, fully interactive framework that addresses these limitations. Our method operates via a fast GUI-based workflow where 2D SAM masks, generated from user point prompts, are refined using NeRF-derived depth priors to improve geometric accuracy and foreground-background separation. The core of our contribution is a custom CUDA kernel that aggregates these refined multi-view masks into a unified 3D voxel grid in under 200ms, enabling real-time visual feedback. This optimization-free design eliminates the need for per-scene training. Experiments on Mip-NeRF 360° and LLFF show that DivAS achieves segmentation quality comparable to optimization-based methods, while being 2-2.5x faster end-to-end, and up to an order of magnitude faster when excluding user prompting time.

DivAS: Interactive 3D Segmentation of NeRFs via Depth-Weighted Voxel Aggregation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册