GeomPrompt: Geometric Prompt Learning for RGB-D Semantic Segmentation Under Missing and Degraded Depth

📄 arXiv: 2604.11585v1 📥 PDF

作者: Krishna Jaganathan, Patricio Vela

分类: cs.CV, cs.RO

发布日期: 2026-04-13

备注: Accepted to the CVPR 2026 URVIS Workshop. Project page: https://geomprompt.github.io


💡 一句话要点

GeomPrompt:针对RGB-D语义分割,在深度信息缺失或退化情况下,学习几何提示以提升性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RGB-D语义分割 几何提示学习 跨模态自适应 深度信息缺失 深度信息退化

📋 核心要点

  1. RGB-D感知系统依赖可靠的深度信息,但实际应用中深度数据常缺失或质量差,影响语义分割性能。
  2. GeomPrompt通过RGB信息生成几何提示,作为第四通道输入冻结的RGB-D分割模型,无需深度监督。
  3. 实验表明,GeomPrompt在深度缺失和退化情况下,显著提升了语义分割的mIoU,且计算效率更高。

📝 摘要(中文)

针对机器人和具身智能中RGB-D感知系统常面临深度信息缺失、噪声或损坏的问题,本文提出了GeomPrompt,一个轻量级的跨模态自适应模块。该模块仅利用RGB信息合成任务驱动的几何提示,作为冻结的RGB-D语义分割模型的第四通道,无需深度监督。此外,本文还提出了GeomPrompt-Recovery,通过预测第四通道的校正来补偿退化的深度信息。这两个模块仅通过下游分割任务的监督进行训练,从而恢复对分割有用的几何先验,而非直接估计深度信号。在SUN RGB-D数据集上,GeomPrompt在DFormer上比仅使用RGB的推理提高了+6.1 mIoU,在GeminiFusion上提高了+3.0 mIoU,同时与强大的单目深度估计器相比仍具有竞争力。对于退化的深度信息,GeomPrompt-Recovery始终提高鲁棒性,在严重深度损坏下产生高达+3.6 mIoU的增益。GeomPrompt也比单目深度基线更有效,延迟仅为7.8毫秒,而后者为38.3毫秒和71.9毫秒。这些结果表明,任务驱动的几何提示是RGB-D感知中,在深度信息缺失和退化情况下进行跨模态补偿的有效机制。

🔬 方法详解

问题定义:RGB-D语义分割依赖准确的深度信息,但在实际场景中,深度数据经常缺失、含有噪声或质量下降,导致分割性能显著降低。现有方法通常依赖单目深度估计来填补缺失的深度信息,但这些方法计算成本高昂,且估计的深度信息可能与下游分割任务并不完全相关。

核心思路:本文的核心思路是学习一个几何提示(Geometric Prompt),该提示能够从RGB图像中提取与语义分割任务相关的几何信息,并将其作为第四通道输入到预训练好的RGB-D语义分割模型中。这种方法避免了直接估计深度信息,而是专注于学习对分割任务有用的几何先验。对于深度信息退化的情况,则学习一个校正模块来修正深度信息。

技术框架:整体框架包含两个主要模块:GeomPrompt和GeomPrompt-Recovery。GeomPrompt用于处理深度信息缺失的情况,它接收RGB图像作为输入,通过一个轻量级的神经网络生成几何提示,然后将该提示作为第四通道与RGB图像一起输入到冻结的RGB-D语义分割模型中。GeomPrompt-Recovery用于处理深度信息退化的情况,它接收RGB图像和退化的深度信息作为输入,通过一个轻量级的神经网络预测深度校正,然后将校正后的深度信息与RGB图像一起输入到冻结的RGB-D语义分割模型中。两个模块都只使用下游分割任务的监督信号进行训练。

关键创新:最重要的创新点在于提出了任务驱动的几何提示学习方法,该方法能够有效地从RGB图像中提取与语义分割任务相关的几何信息,而无需显式地估计深度信息。与传统的单目深度估计方法相比,GeomPrompt更加高效,并且能够更好地适应下游分割任务。此外,GeomPrompt-Recovery模块能够有效地补偿退化的深度信息,提高分割模型的鲁棒性。

关键设计:GeomPrompt和GeomPrompt-Recovery模块都采用了轻量级的神经网络结构,以保证计算效率。损失函数采用标准的交叉熵损失函数,用于监督分割结果。在训练过程中,RGB-D语义分割模型被冻结,只训练GeomPrompt和GeomPrompt-Recovery模块。具体的网络结构细节(如卷积层数、滤波器大小等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GeomPrompt在SUN RGB-D数据集上,相比于仅使用RGB的推理,在DFormer上提高了+6.1 mIoU,在GeminiFusion上提高了+3.0 mIoU。对于退化的深度信息,GeomPrompt-Recovery在严重深度损坏下产生了高达+3.6 mIoU的增益。此外,GeomPrompt的推理速度远快于单目深度估计方法,延迟仅为7.8毫秒,而后者为38.3毫秒和71.9毫秒,表明其具有更高的计算效率。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、增强现实等领域,尤其是在深度传感器性能受限或深度数据不可靠的环境中。例如,在光照条件不佳或传感器受到遮挡的情况下,GeomPrompt可以有效地提升语义分割的准确性和鲁棒性,从而提高机器人对环境的理解能力和决策能力。未来,该技术有望进一步扩展到其他感知任务,如目标检测和三维重建。

📄 摘要(原文)

Multimodal perception systems for robotics and embodied AI often assume reliable RGB-D sensing, but in practice, depth is frequently missing, noisy, or corrupted. We thus present GeomPrompt, a lightweight cross-modal adaptation module that synthesizes a task-driven geometric prompt from RGB alone for the fourth channel of a frozen RGB-D semantic segmentation model, without depth supervision. We further introduce GeomPrompt-Recovery, an adaptation module that compensates for degraded depth by predicting the fourth channel correction relevant for the frozen segmenter. Both modules are trained solely with downstream segmentation supervision, enabling recovery of the geometric prior useful for segmentation, rather than estimating depth signals. On SUN RGB-D, GeomPrompt improves over RGB-only inference by +6.1 mIoU on DFormer and +3.0 mIoU on GeminiFusion, while remaining competitive with strong monocular depth estimators. For degraded depth, GeomPrompt-Recovery consistently improves robustness, yielding gains up to +3.6 mIoU under severe depth corruptions. GeomPrompt is also substantially more efficient than monocular depth baselines, reaching 7.8 ms latency versus 38.3 ms and 71.9 ms. These results suggest that task-driven geometric prompting is an efficient mechanism for cross-modal compensation under missing and degraded depth inputs in RGB-D perception.