Geometry Meets Vision: Revisiting Pretrained Semantics in Distilled Fields
作者: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
分类: cs.CV, cs.RO
发布日期: 2025-10-03
💡 一句话要点
研究几何信息在神经辐射场语义蒸馏中的作用,并提出无初始猜测的辐射场反演框架SPINE。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经辐射场 语义蒸馏 几何信息 辐射场反演 姿态估计
📋 核心要点
- 现有方法在辐射场语义蒸馏中,对几何信息利用不足,限制了其在空间任务中的潜力。
- 论文提出SPINE框架,通过语义蒸馏进行粗略反演,再通过光度优化进行精细反演,实现无初始猜测的辐射场反演。
- 实验表明,几何相关的特征虽然包含更多几何细节,但在姿态估计等任务中,纯视觉特征表现出更好的通用性。
📝 摘要(中文)
神经辐射场中的语义蒸馏推动了开放词汇机器人策略的显著进步,例如在操作和导航中,这些策略建立在大型视觉模型的预训练语义之上。虽然之前的工作已经证明了纯视觉语义特征(例如DINO和CLIP)在高斯溅射和神经辐射场中的有效性,但几何信息在蒸馏场中的潜在益处仍然是一个悬而未决的问题。原则上,视觉-几何特征对于姿态估计等空间任务非常有希望,这引发了一个问题:几何相关的语义特征是否在蒸馏场中提供优势?具体来说,我们提出了三个关键问题:首先,空间相关性是否产生更高保真度的几何感知语义特征?我们发现,来自几何相关骨干网络的图像特征包含比其对应物更精细的结构细节。其次,几何相关性是否改善语义对象定位?我们观察到此任务没有显着差异。第三,几何相关性是否能够实现更高精度的辐射场反演?鉴于先前工作的局限性以及它们缺乏语义集成,我们提出了一种新颖的框架SPINE,用于在没有初始猜测的情况下反演辐射场,该框架由两个核心组件组成:使用蒸馏语义的粗略反演,以及使用基于光度法的优化的精细反演。令人惊讶的是,我们发现姿态估计精度随着几何相关特征的降低而降低。我们的结果表明,纯视觉特征为更广泛的下游任务提供了更大的通用性,尽管几何相关特征包含更多的几何细节。值得注意的是,我们的发现强调了未来研究有效几何相关策略的必要性,这些策略可以增强预训练语义特征的通用性和性能。
🔬 方法详解
问题定义:现有神经辐射场语义蒸馏方法主要依赖纯视觉特征,忽略了几何信息对空间任务的潜在增益。虽然几何信息在姿态估计等任务中至关重要,但如何有效地将几何信息融入到蒸馏场中,并提升下游任务的性能,仍然是一个挑战。此外,现有辐射场反演方法通常需要初始猜测,限制了其应用范围。
核心思路:论文的核心思路是研究几何信息在神经辐射场语义蒸馏中的作用,并探索其对下游任务的影响。通过对比几何相关和纯视觉特征在语义对象定位和辐射场反演中的表现,揭示了几何信息在不同任务中的优势和劣势。同时,提出了SPINE框架,通过语义蒸馏和光度优化相结合的方式,实现了无初始猜测的辐射场反演。
技术框架:SPINE框架包含两个主要阶段:粗略反演和精细反演。在粗略反演阶段,利用蒸馏的语义信息,对场景进行初步的姿态估计和场景重建。在精细反演阶段,利用基于光度法的优化方法,对粗略结果进行 refinement,得到更精确的姿态估计和场景重建结果。整个框架无需初始猜测,可以直接从图像中进行辐射场反演。
关键创新:SPINE框架的关键创新在于:1) 提出了一种无初始猜测的辐射场反演方法,突破了现有方法的局限性;2) 将语义蒸馏和光度优化相结合,充分利用了语义信息和图像信息,提高了反演的精度和鲁棒性;3) 对比研究了几何相关和纯视觉特征在辐射场语义蒸馏中的作用,为未来的研究提供了指导。
关键设计:SPINE框架的关键设计包括:1) 使用预训练的视觉模型(如DINO或CLIP)提取图像的语义特征,并将其蒸馏到神经辐射场中;2) 设计了一种基于语义信息的粗略反演方法,用于初始化姿态估计和场景重建;3) 使用一种基于光度法的优化方法,通过最小化渲染图像和真实图像之间的差异,来优化姿态估计和场景重建结果。损失函数的设计需要平衡语义信息和图像信息的贡献,以获得最佳的反演效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,几何相关的特征虽然包含更多几何细节,但在姿态估计任务中,使用几何相关特征反而导致精度下降。令人惊讶的是,纯视觉特征表现出更好的通用性。SPINE框架在无初始猜测的辐射场反演任务中取得了良好的效果,验证了语义蒸馏和光度优化相结合的有效性。
🎯 应用场景
该研究成果可应用于机器人操作、自动驾驶、增强现实等领域。例如,机器人可以利用蒸馏的语义信息进行物体识别和抓取,自动驾驶系统可以利用几何信息进行场景理解和导航,AR应用可以利用辐射场反演技术进行三维场景重建和渲染。该研究有助于提升机器人的自主性和智能化水平,推动相关技术的发展。
📄 摘要(原文)
Semantic distillation in radiance fields has spurred significant advances in open-vocabulary robot policies, e.g., in manipulation and navigation, founded on pretrained semantics from large vision models. While prior work has demonstrated the effectiveness of visual-only semantic features (e.g., DINO and CLIP) in Gaussian Splatting and neural radiance fields, the potential benefit of geometry-grounding in distilled fields remains an open question. In principle, visual-geometry features seem very promising for spatial tasks such as pose estimation, prompting the question: Do geometry-grounded semantic features offer an edge in distilled fields? Specifically, we ask three critical questions: First, does spatial-grounding produce higher-fidelity geometry-aware semantic features? We find that image features from geometry-grounded backbones contain finer structural details compared to their counterparts. Secondly, does geometry-grounding improve semantic object localization? We observe no significant difference in this task. Thirdly, does geometry-grounding enable higher-accuracy radiance field inversion? Given the limitations of prior work and their lack of semantics integration, we propose a novel framework SPINE for inverting radiance fields without an initial guess, consisting of two core components: coarse inversion using distilled semantics, and fine inversion using photometric-based optimization. Surprisingly, we find that the pose estimation accuracy decreases with geometry-grounded features. Our results suggest that visual-only features offer greater versatility for a broader range of downstream tasks, although geometry-grounded features contain more geometric detail. Notably, our findings underscore the necessity of future research on effective strategies for geometry-grounding that augment the versatility and performance of pretrained semantic features.