Multimodal SAM-adapter for Semantic Segmentation

📄 arXiv: 2509.10408v1 📥 PDF

作者: Iacopo Curti, Pierluigi Zama Ramirez, Alioscia Petrelli, Luigi Di Stefano

分类: cs.CV, cs.AI

发布日期: 2025-09-12

🔗 代码/项目: GITHUB


💡 一句话要点

提出MM SAM-adapter,用于提升多模态语义分割在复杂环境下的鲁棒性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义分割 多模态融合 Segment Anything Model 自适应学习 鲁棒性 自动驾驶 深度学习

📋 核心要点

  1. 现有语义分割方法在光照不足、遮挡和恶劣天气等复杂环境下表现不佳,鲁棒性不足。
  2. 提出MM SAM-adapter,通过adapter网络将融合的多模态特征注入SAM的RGB特征,提升模型性能。
  3. 在DeLiVER、FMB和MUSES数据集上,MM SAM-adapter取得了state-of-the-art的性能,验证了有效性。

📝 摘要(中文)

语义分割是计算机视觉中的关键任务,在自动驾驶、医学成像和机器人等领域有着广泛的应用。尽管深度学习取得了显著进展,但现有方法在光照不足、遮挡和恶劣天气等复杂条件下仍然脆弱。为了解决这些局限性,多模态方法通过整合辅助传感器数据(如LiDAR、红外)来提供互补信息,从而增强鲁棒性。本文提出了MM SAM-adapter,这是一个新颖的框架,扩展了Segment Anything Model (SAM)在多模态语义分割中的能力。该方法采用adapter网络,将融合的多模态特征注入到SAM丰富的RGB特征中。这种设计使模型能够保持RGB特征强大的泛化能力,同时仅在辅助模态提供额外线索时才选择性地合并它们。因此,MM SAM-adapter实现了多模态信息的平衡和有效利用。我们在DeLiVER、FMB和MUSES三个具有挑战性的基准上评估了我们的方法,MM SAM-adapter实现了最先进的性能。为了进一步分析模态贡献,我们将DeLiVER和FMB划分为RGB-easy和RGB-hard子集。结果一致表明,我们的框架在有利和不利条件下都优于竞争方法,突出了多模态自适应在鲁棒场景理解中的有效性。

🔬 方法详解

问题定义:论文旨在解决语义分割任务在复杂环境下的鲁棒性问题。现有方法依赖RGB图像,在光照不足、遮挡等情况下性能显著下降。痛点在于如何有效融合多模态信息,提升模型在恶劣条件下的感知能力,同时避免引入过多冗余信息。

核心思路:论文的核心思路是利用Segment Anything Model (SAM)强大的先验知识和泛化能力,并设计一个adapter网络,将多模态信息选择性地注入到SAM的RGB特征中。这样既能保留SAM在RGB图像上的优势,又能利用辅助模态的信息来增强模型在复杂环境下的鲁棒性。

技术框架:MM SAM-adapter的整体架构包含以下几个主要模块:1) 特征提取模块:分别提取RGB图像和辅助模态(如LiDAR)的特征。2) 多模态特征融合模块:将提取的特征进行融合,生成融合后的多模态特征。3) SAM-adapter模块:将融合后的特征通过adapter网络注入到SAM的图像编码器中。4) 解码器模块:利用SAM的解码器进行语义分割。

关键创新:最重要的技术创新点在于SAM-adapter的设计。它允许模型选择性地利用多模态信息,而不是简单地将所有信息都融合在一起。这种设计使得模型能够更好地平衡RGB特征的泛化能力和辅助模态的补充信息,从而在复杂环境下获得更好的性能。与现有方法相比,MM SAM-adapter更加灵活和高效。

关键设计:adapter网络采用轻量级的设计,以减少计算开销。损失函数包括分割损失和辅助损失,用于监督模型的训练。具体网络结构和参数设置在论文中有详细描述。此外,论文还针对不同的数据集和模态进行了实验,以验证方法的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MM SAM-adapter在DeLiVER、FMB和MUSES三个数据集上取得了state-of-the-art的性能。在DeLiVER数据集上,相比于现有最佳方法,在RGB-hard子集上取得了显著的性能提升。实验结果表明,该方法能够有效地利用多模态信息,提高模型在复杂环境下的鲁棒性。消融实验也验证了adapter网络和多模态融合策略的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人和医学图像分析等领域。在自动驾驶中,可以利用LiDAR等传感器数据提高车辆在恶劣天气下的感知能力。在机器人领域,可以帮助机器人在复杂环境中进行导航和物体识别。在医学图像分析中,可以结合MRI和CT等多种模态的信息,提高疾病诊断的准确性。未来,该方法可以扩展到更多的模态和应用场景。

📄 摘要(原文)

Semantic segmentation, a key task in computer vision with broad applications in autonomous driving, medical imaging, and robotics, has advanced substantially with deep learning. Nevertheless, current approaches remain vulnerable to challenging conditions such as poor lighting, occlusions, and adverse weather. To address these limitations, multimodal methods that integrate auxiliary sensor data (e.g., LiDAR, infrared) have recently emerged, providing complementary information that enhances robustness. In this work, we present MM SAM-adapter, a novel framework that extends the capabilities of the Segment Anything Model (SAM) for multimodal semantic segmentation. The proposed method employs an adapter network that injects fused multimodal features into SAM's rich RGB features. This design enables the model to retain the strong generalization ability of RGB features while selectively incorporating auxiliary modalities only when they contribute additional cues. As a result, MM SAM-adapter achieves a balanced and efficient use of multimodal information. We evaluate our approach on three challenging benchmarks, DeLiVER, FMB, and MUSES, where MM SAM-adapter delivers state-of-the-art performance. To further analyze modality contributions, we partition DeLiVER and FMB into RGB-easy and RGB-hard subsets. Results consistently demonstrate that our framework outperforms competing methods in both favorable and adverse conditions, highlighting the effectiveness of multimodal adaptation for robust scene understanding. The code is available at the following link: https://github.com/iacopo97/Multimodal-SAM-Adapter.