Segment Any RGB-Thermal Model with Language-aided Distillation

作者: Dong Xing, Xianxun Zhu, Wei Zhou, Qika Lin, Hang Yang, Yuqing Wang

分类: cs.CV, cs.AI

发布日期: 2025-05-04

备注: arXiv admin note: text overlap with arXiv:2412.04220 by other authors

💡 一句话要点

提出SARTM框架，通过语言引导的知识蒸馏定制SAM模型用于RGB-T语义分割

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: RGB-T语义分割 Segment Anything Model 知识蒸馏 跨模态学习 语言引导 多尺度特征融合 LoRA微调

📋 核心要点

现有SAM模型仅在RGB数据上训练，无法直接应用于对恶劣天气和光照条件具有鲁棒性的RGB-T语义分割。
SARTM框架通过微调SAM、引入语言信息指导和跨模态知识蒸馏，实现SAM在RGB-T数据上的有效迁移和语义理解。
实验结果表明，SARTM在多个RGB-T语义分割数据集上显著优于现有方法，证明了其有效性。

📝 摘要（中文）

本文提出了一种名为SARTM的新框架，旨在将强大的Segment Anything Model (SAM)定制用于RGB-thermal (RGB-T) 语义分割。SAM仅在RGB数据上训练，限制了其在RGB-T语义分割中的直接应用。SARTM的关键思想是释放SAM的潜力，同时引入语义理解模块来处理RGB-T数据对。具体而言，该框架首先通过添加额外的LoRA层来微调原始SAM，以保持SAM强大的泛化和分割能力。其次，引入语言信息作为SARTM训练的指导。为了解决跨模态不一致性，引入了跨模态知识蒸馏(CMKD)模块，有效地实现了模态适应，同时保持了其泛化能力。该语义模块能够最小化模态差距并缓解语义模糊，从而促进任何视觉条件下任何模态的组合。此外，通过调整SAM的分割头并结合辅助语义分割头来增强分割性能，该辅助语义分割头集成了多尺度特征以实现有效融合。在三个多模态RGBT语义分割基准数据集MFNET、PST900和FMB上进行了大量实验。定量和定性结果一致表明，所提出的SARTM在各种条件下均显着优于最先进的方法。

🔬 方法详解

问题定义：论文旨在解决RGB-T语义分割问题，现有方法主要痛点在于：1）SAM模型是为RGB图像设计的，无法直接处理RGB-T数据；2）RGB和Thermal模态之间存在差异，直接融合效果不佳；3）缺乏有效的语义信息引导，导致分割精度不高。

核心思路：论文的核心思路是利用SAM强大的分割能力，通过知识蒸馏和语言引导，将SAM迁移到RGB-T语义分割任务上。通过跨模态知识蒸馏，减小RGB和Thermal模态之间的差异，并利用语言信息提供额外的语义指导，从而提高分割精度。

技术框架：SARTM框架主要包含以下几个模块：1）SAM微调模块：通过添加LoRA层微调SAM，保留其分割能力；2）跨模态知识蒸馏(CMKD)模块：利用RGB模态的信息指导Thermal模态的学习，减小模态差异；3）语言引导模块：利用语言信息提供额外的语义指导；4）多尺度特征融合模块：融合多尺度特征，提高分割精度；5）辅助语义分割头：辅助分割，进一步提高精度。

关键创新：论文的关键创新在于：1）提出了一种基于知识蒸馏的跨模态学习方法，有效减小了RGB和Thermal模态之间的差异；2）引入语言信息作为指导，提高了分割精度；3）设计了一种多尺度特征融合模块，有效利用了图像的多尺度信息。

关键设计：1）LoRA层的具体参数设置（例如LoRA rank）；2）CMKD模块中知识蒸馏的具体方式（例如损失函数）；3）语言引导模块中语言信息的表示和融合方式；4）多尺度特征融合模块中不同尺度特征的权重分配；5）辅助语义分割头的具体结构和损失函数。

🖼️ 关键图片

📊 实验亮点

SARTM在MFNET、PST900和FMB三个RGB-T语义分割数据集上均取得了显著的性能提升。例如，在MFNET数据集上，SARTM的mIoU指标超过现有最佳方法多个百分点。实验结果表明，SARTM能够有效利用RGB-T数据和语言信息，实现更准确的语义分割。

🎯 应用场景

该研究成果可应用于自动驾驶、安防监控、机器人等领域。在这些场景中，RGB-T语义分割能够提供更鲁棒和准确的场景理解，尤其是在光照条件不佳或存在遮挡的情况下。例如，在自动驾驶中，可以利用RGB-T语义分割来识别道路、车辆和行人，从而提高驾驶安全性。未来，该技术有望进一步发展，实现更精细化的场景理解和更智能化的决策。

📄 摘要（原文）

The recent Segment Anything Model (SAM) demonstrates strong instance segmentation performance across various downstream tasks. However, SAM is trained solely on RGB data, limiting its direct applicability to RGB-thermal (RGB-T) semantic segmentation. Given that RGB-T provides a robust solution for scene understanding in adverse weather and lighting conditions, such as low light and overexposure, we propose a novel framework, SARTM, which customizes the powerful SAM for RGB-T semantic segmentation. Our key idea is to unleash the potential of SAM while introduce semantic understanding modules for RGB-T data pairs. Specifically, our framework first involves fine tuning the original SAM by adding extra LoRA layers, aiming at preserving SAM's strong generalization and segmentation capabilities for downstream tasks. Secondly, we introduce language information as guidance for training our SARTM. To address cross-modal inconsistencies, we introduce a Cross-Modal Knowledge Distillation(CMKD) module that effectively achieves modality adaptation while maintaining its generalization capabilities. This semantic module enables the minimization of modality gaps and alleviates semantic ambiguity, facilitating the combination of any modality under any visual conditions. Furthermore, we enhance the segmentation performance by adjusting the segmentation head of SAM and incorporating an auxiliary semantic segmentation head, which integrates multi-scale features for effective fusion. Extensive experiments are conducted across three multi-modal RGBT semantic segmentation benchmarks: MFNET, PST900, and FMB. Both quantitative and qualitative results consistently demonstrate that the proposed SARTM significantly outperforms state-of-the-art approaches across a variety of conditions.

Segment Any RGB-Thermal Model with Language-aided Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理