Stronger, Steadier & Superior: Geometric Consistency in Depth VFM Forges Domain Generalized Semantic Segmentation
作者: Siyu Chen, Ting Han, Changshe Zhang, Xin Luo, Meiliu Wu, Guorong Cai, Jinhe Su
分类: cs.CV
发布日期: 2025-04-17 (更新: 2025-07-15)
备注: Accepted by ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
DepthForge:融合深度信息的VFM提升域泛化语义分割的几何一致性
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 域泛化语义分割 深度信息融合 视觉基础模型 几何一致性 深度感知 可学习Tokens 极端条件 自适应细化
📋 核心要点
- 现有DGSS方法忽略了深度信息的几何稳定性,视觉特征易受领域差异影响。
- DepthForge通过融合VFM的视觉特征和深度信息,增强模型对几何结构的感知。
- 实验表明,DepthForge在各种DGSS设置下显著优于现有方法,尤其在极端条件下。
📝 摘要(中文)
视觉基础模型(VFMs)在域泛化语义分割(DGSS)中表现出色。然而,现有方法常忽略视觉线索的易受影响性,而潜在的几何结构更稳定,使得深度信息更具鲁棒性。本文研究了将深度信息与VFM特征相结合的潜力,以提高图像内的几何一致性并增强VFMs的泛化性能。我们提出了一个名为DepthForge的新型微调DGSS框架,该框架集成了来自冻结的DINOv2或EVA02的视觉线索以及来自冻结的Depth Anything V2的深度线索。在VFMs的每一层中,我们结合了深度感知的可学习tokens,以持续解耦域不变的视觉和空间信息,从而增强VFMs的深度感知和注意力。最后,我们开发了一个深度细化解码器,并将其集成到模型架构中,以自适应地细化多层VFM特征和深度感知的可学习tokens。基于各种DGSS设置和五个不同的数据集作为未见目标域进行了大量实验。定性和定量结果表明,我们的方法明显优于其他方法,具有更强的性能、更稳定的视觉-空间注意力和卓越的泛化能力。特别是,DepthForge在极端条件下(例如,夜晚和雪地)表现出出色的性能。
🔬 方法详解
问题定义:域泛化语义分割(DGSS)旨在训练一个模型,使其在未见过的目标域上也能保持良好的分割性能。现有方法主要依赖视觉特征,但视觉特征容易受到光照、天气等领域差异的影响,导致模型泛化能力下降。因此,如何利用更稳定的信息来提升DGSS模型的泛化能力是一个关键问题。
核心思路:本文的核心思路是利用深度信息的几何稳定性来增强模型的泛化能力。深度信息反映了场景的几何结构,受领域差异的影响较小。通过将深度信息与视觉特征融合,可以提高模型对场景几何结构的感知,从而提升其在未见过的目标域上的分割性能。DepthForge框架旨在解耦域不变的视觉和空间信息,从而增强VFMs的深度感知和注意力。
技术框架:DepthForge框架主要包含三个部分:视觉基础模型(VFM)、深度感知模块和深度细化解码器。首先,使用冻结的DINOv2或EVA02提取视觉特征,并使用冻结的Depth Anything V2提取深度信息。然后,在VFM的每一层中,引入深度感知的可学习tokens,用于融合视觉特征和深度信息,并解耦域不变的视觉和空间信息。最后,使用深度细化解码器自适应地细化多层VFM特征和深度感知的可学习tokens,得到最终的分割结果。
关键创新:DepthForge的关键创新在于将深度信息与VFM特征相结合,并引入深度感知的可学习tokens来解耦域不变的视觉和空间信息。与现有方法相比,DepthForge充分利用了深度信息的几何稳定性,从而提高了模型的泛化能力。此外,深度细化解码器的设计也能够自适应地细化多层特征,进一步提升分割性能。
关键设计:深度感知的可学习tokens被添加到VFM的每一层,其数量和维度是超参数,需要根据具体任务进行调整。深度细化解码器采用多层卷积神经网络,其结构和参数也需要根据具体任务进行设计。损失函数包括分割损失和深度损失,分割损失用于监督分割结果,深度损失用于约束深度信息的学习。具体损失函数的权重需要根据实验进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DepthForge在多个DGSS数据集上取得了显著的性能提升。例如,在极端条件(如夜晚和雪地)下,DepthForge的表现尤为突出,相比现有方法有明显的优势。定量结果显示,DepthForge在多个数据集上的平均IoU指标均优于其他方法,证明了其更强的泛化能力和鲁棒性。
🎯 应用场景
DepthForge在自动驾驶、机器人导航、遥感图像分析等领域具有广泛的应用前景。通过提高模型在不同环境下的泛化能力,可以减少对大量标注数据的依赖,降低模型部署成本。尤其在极端天气或光照条件下,DepthForge的鲁棒性使其在这些场景下具有更高的应用价值,例如夜间自动驾驶或雪地机器人导航。
📄 摘要(原文)
Vision Foundation Models (VFMs) have delivered remarkable performance in Domain Generalized Semantic Segmentation (DGSS). However, recent methods often overlook the fact that visual cues are susceptible, whereas the underlying geometry remains stable, rendering depth information more robust. In this paper, we investigate the potential of integrating depth information with features from VFMs, to improve the geometric consistency within an image and boost the generalization performance of VFMs. We propose a novel fine-tuning DGSS framework, named DepthForge, which integrates the visual cues from frozen DINOv2 or EVA02 and depth cues from frozen Depth Anything V2. In each layer of the VFMs, we incorporate depth-aware learnable tokens to continuously decouple domain-invariant visual and spatial information, thereby enhancing depth awareness and attention of the VFMs. Finally, we develop a depth refinement decoder and integrate it into the model architecture to adaptively refine multi-layer VFM features and depth-aware learnable tokens. Extensive experiments are conducted based on various DGSS settings and five different datsets as unseen target domains. The qualitative and quantitative results demonstrate that our method significantly outperforms alternative approaches with stronger performance, steadier visual-spatial attention, and superior generalization ability. In particular, DepthForge exhibits outstanding performance under extreme conditions (e.g., night and snow). Code is available at https://github.com/anonymouse-xzrptkvyqc/DepthForge.