OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views
作者: Francis Engelmann, Fabian Manhardt, Michael Niemeyer, Keisuke Tateno, Marc Pollefeys, Federico Tombari
分类: cs.CV
发布日期: 2024-04-04
备注: ICLR 2024, Project page: https://opennerf.github.io
期刊: ICLR 2024
💡 一句话要点
提出OpenNeRF以解决开放集3D场景分割问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放集分割 3D场景理解 视觉语言模型 NeRF 点云处理 深度学习
📋 核心要点
- 现有的3D场景分割方法多依赖于低分辨率的点云或网格,无法有效利用高分辨率图像特征。
- OpenNeRF通过在NeRF中直接编码逐像素的视觉语言模型特征,简化了模型架构并提高了性能。
- 在Replica数据集上的实验结果显示,OpenNeRF在3D点云分割任务中比现有的开放词汇方法提高了至少4.9 mIoU。
📝 摘要(中文)
大型视觉语言模型(VLMs),如CLIP,使得开放集图像分割能够以零样本的方式从图像中分割任意概念。与传统的闭集假设不同,后者仅能从预定义的训练集中分割类。最近,文献中出现了一些关于3D场景的开放集分割的初步研究。这些方法受到闭集3D卷积方法的影响,处理点云或多边形网格。然而,这些3D场景表示与基于图像的视觉语言模型并不完全对齐。为了解决这些挑战,我们提出了OpenNeRF,它自然地在已定位的图像上操作,并直接在NeRF中编码VLM特征。我们的研究表明,使用逐像素的VLM特征(而非全局CLIP特征)可以简化架构,且无需额外的DINO正则化。OpenNeRF还利用NeRF的能力渲染新视角,并从初始图像中未充分观察到的区域提取开放集VLM特征。
🔬 方法详解
问题定义:本论文旨在解决开放集3D场景分割中的特征对齐问题。现有方法通常依赖于低分辨率的点云或多边形网格,导致与高分辨率图像特征的对齐不佳。
核心思路:OpenNeRF通过在NeRF框架中直接编码逐像素的视觉语言模型特征,克服了传统方法的局限性。这种设计使得模型能够更好地利用图像信息进行分割。
技术框架:OpenNeRF的整体架构包括图像输入模块、特征编码模块和渲染模块。图像输入模块负责获取已定位的图像,特征编码模块将图像特征与VLM特征结合,渲染模块则生成新视角图像并提取开放集特征。
关键创新:OpenNeRF的主要创新在于使用逐像素的VLM特征,而非全局特征,从而简化了模型架构并提高了分割精度。这一方法与现有的基于点云的分割方法有本质区别。
关键设计:在模型设计中,OpenNeRF采用了特定的损失函数以优化逐像素特征的对齐,同时避免了额外的正则化需求。网络结构上,OpenNeRF通过减少复杂度来提升计算效率。
🖼️ 关键图片
📊 实验亮点
在Replica数据集上的实验结果表明,OpenNeRF在3D点云分割任务中相较于最新的开放词汇方法,如LERF和OpenScene,提升了至少4.9 mIoU,显示出其优越的性能和有效性。
🎯 应用场景
OpenNeRF在3D场景理解、机器人导航和增强现实等领域具有广泛的应用潜力。其能够处理开放集分割问题的能力,使得在复杂环境中进行实时决策和交互成为可能,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large visual-language models (VLMs), like CLIP, enable open-set image segmentation to segment arbitrary concepts from an image in a zero-shot manner. This goes beyond the traditional closed-set assumption, i.e., where models can only segment classes from a pre-defined training set. More recently, first works on open-set segmentation in 3D scenes have appeared in the literature. These methods are heavily influenced by closed-set 3D convolutional approaches that process point clouds or polygon meshes. However, these 3D scene representations do not align well with the image-based nature of the visual-language models. Indeed, point cloud and 3D meshes typically have a lower resolution than images and the reconstructed 3D scene geometry might not project well to the underlying 2D image sequences used to compute pixel-aligned CLIP features. To address these challenges, we propose OpenNeRF which naturally operates on posed images and directly encodes the VLM features within the NeRF. This is similar in spirit to LERF, however our work shows that using pixel-wise VLM features (instead of global CLIP features) results in an overall less complex architecture without the need for additional DINO regularization. Our OpenNeRF further leverages NeRF's ability to render novel views and extract open-set VLM features from areas that are not well observed in the initial posed images. For 3D point cloud segmentation on the Replica dataset, OpenNeRF outperforms recent open-vocabulary methods such as LERF and OpenScene by at least +4.9 mIoU.