Revisiting Cross-Modal Knowledge Distillation: A Disentanglement Approach for RGBD Semantic Segmentation

📄 arXiv: 2505.24361v1 📥 PDF

作者: Roger Ferrod, Cássio F. Dantas, Luigi Di Caro, Dino Ienco

分类: cs.CV

发布日期: 2025-05-30


💡 一句话要点

提出CroDiNo-KD,通过解耦表示学习RGBD语义分割中的跨模态知识蒸馏。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 跨模态知识蒸馏 RGBD语义分割 解耦表示学习 对比学习 协同学习 深度学习 计算机视觉

📋 核心要点

  1. 现有跨模态知识蒸馏方法在教师模型选择和蒸馏过程设计上存在局限性,难以适应实际应用场景。
  2. CroDiNo-KD通过解耦表示学习、对比学习和解耦数据增强,协同训练RGB和深度单模态模型,构建模型内部流形。
  3. 实验结果表明,CroDiNo-KD在多个RGBD数据集上表现出色,验证了其有效性,并挑战了传统的师生范式。

📝 摘要(中文)

多模态RGB和深度(RGBD)数据在机器人、自动驾驶和遥感等领域占据主导地位。这些多模态数据的结合通过提供3D空间上下文来增强环境感知,而这是标准RGB图像所缺乏的。虽然RGBD多模态数据可用于训练计算机视觉模型,但在推理阶段访问所有传感器模态可能由于传感器故障或资源限制而不可行,从而导致训练和推理期间可用数据模态的不匹配。传统的跨模态知识蒸馏(CMKD)框架通常基于教师/学生范式,其中多模态教师将知识提炼到单模态学生模型中。然而,这些方法在教师架构选择和蒸馏过程选择方面面临挑战,从而限制了它们在实际场景中的应用。为了克服这些问题,我们引入了CroDiNo-KD(跨模态解耦:知识蒸馏的新视角),这是一种用于RGBD语义分割的新型跨模态知识蒸馏框架。我们的方法通过利用解耦表示、对比学习和解耦数据增强同时学习单模态RGB和深度模型,旨在通过交互和协作来构建神经网络模型的内部流形。我们在三个跨不同领域的RGBD数据集上评估了CroDiNo-KD,并将最新的CMKD框架作为竞争对手。我们的研究结果说明了CroDiNo-KD的质量,并建议重新考虑传统的教师/学生范式,以将信息从多模态数据提炼到单模态神经网络。

🔬 方法详解

问题定义:论文旨在解决RGBD语义分割中,推理阶段仅能获取单模态数据(RGB或Depth)的问题。现有跨模态知识蒸馏方法依赖于教师-学生框架,在教师模型结构选择和知识蒸馏方式选择上存在困难,限制了其在实际场景中的应用,例如教师模型过大导致计算资源消耗过多,或者蒸馏方式不适合特定任务。

核心思路:论文的核心思路是避免传统的教师-学生范式,转而采用一种协同学习的方式,通过解耦表示学习,对比学习和解耦数据增强,同时训练RGB和Depth两个单模态模型。这种方式旨在让两个模态的模型互相学习,共同提升性能,而不是依赖于一个预先训练好的教师模型。

技术框架:CroDiNo-KD框架包含两个主要分支,分别对应RGB和Depth模态。每个分支都包含一个语义分割网络。框架的关键在于三个组成部分:1) 解耦表示学习模块,用于学习模态不变和模态特定的特征;2) 对比学习模块,用于拉近不同模态之间语义相似的特征表示;3) 解耦数据增强模块,用于对RGB和Depth数据进行不同的增强,以提高模型的鲁棒性。

关键创新:该论文的关键创新在于提出了一个非教师-学生范式的跨模态知识蒸馏框架。通过解耦表示学习和对比学习,实现了RGB和Depth模态之间的知识共享,避免了传统方法中教师模型选择和蒸馏方式设计的难题。这种协同学习的方式更灵活,更易于适应不同的应用场景。

关键设计:解耦表示学习模块使用了一个共享编码器和一个模态特定的编码器,用于提取模态不变和模态特定的特征。对比学习模块使用InfoNCE损失函数,用于拉近不同模态之间语义相似的特征表示。解耦数据增强模块对RGB图像和Depth图像分别应用不同的数据增强策略,例如,对RGB图像进行颜色抖动,对Depth图像进行随机噪声添加。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CroDiNo-KD在NYU Depth V2、SUN RGBD和Cityscapes-3D数据集上均取得了优异的性能。例如,在NYU Depth V2数据集上,CroDiNo-KD在RGB模态和Depth模态上都超过了现有的跨模态知识蒸馏方法,证明了其有效性。该方法无需依赖预训练的教师模型,降低了计算成本,更易于部署。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、三维重建等领域。在这些场景中,传感器可能出现故障或资源受限,导致无法同时获取RGB和Depth数据。CroDiNo-KD能够利用单模态数据实现高性能的语义分割,提高系统的可靠性和适应性,具有重要的实际应用价值。

📄 摘要(原文)

Multi-modal RGB and Depth (RGBD) data are predominant in many domains such as robotics, autonomous driving and remote sensing. The combination of these multi-modal data enhances environmental perception by providing 3D spatial context, which is absent in standard RGB images. Although RGBD multi-modal data can be available to train computer vision models, accessing all sensor modalities during the inference stage may be infeasible due to sensor failures or resource constraints, leading to a mismatch between data modalities available during training and inference. Traditional Cross-Modal Knowledge Distillation (CMKD) frameworks, developed to address this task, are typically based on a teacher/student paradigm, where a multi-modal teacher distills knowledge into a single-modality student model. However, these approaches face challenges in teacher architecture choices and distillation process selection, thus limiting their adoption in real-world scenarios. To overcome these issues, we introduce CroDiNo-KD (Cross-Modal Disentanglement: a New Outlook on Knowledge Distillation), a novel cross-modal knowledge distillation framework for RGBD semantic segmentation. Our approach simultaneously learns single-modality RGB and Depth models by exploiting disentanglement representation, contrastive learning and decoupled data augmentation with the aim to structure the internal manifolds of neural network models through interaction and collaboration. We evaluated CroDiNo-KD on three RGBD datasets across diverse domains, considering recent CMKD frameworks as competitors. Our findings illustrate the quality of CroDiNo-KD, and they suggest reconsidering the conventional teacher/student paradigm to distill information from multi-modal data to single-modality neural networks.