M$^4$-SAM: Multi-Modal Mixture-of-Experts with Memory-Augmented SAM for RGB-D Video Salient Object Detection
作者: Jiyuan Liu, Jia Lin, Xiaofei Zhou, Runmin Cong, Deyang Liu, Zhi Liu
分类: cs.CV
发布日期: 2026-05-12
备注: 10 pages, 3 figures
💡 一句话要点
M$^4$-SAM:面向RGB-D视频显著性目标检测的记忆增强多模态混合专家模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: RGB-D视频显著性目标检测 Segment Anything Model 多模态融合 混合专家模型 记忆增强 零样本学习 伪引导初始化
📋 核心要点
- RGB-D视频显著性目标检测面临SAM2空间建模不足、多尺度特征利用不充分和依赖显式提示等挑战。
- M$^4$-SAM通过模态感知MoE-LORA、门控多级特征融合和伪引导初始化,增强SAM2在RGB-D VSOD任务中的性能。
- 实验结果表明,M$^4$-SAM在三个RGB-D VSOD数据集上取得了SOTA性能,验证了其有效性。
📝 摘要(中文)
本文提出了一种用于RGB-D视频显著性目标检测的记忆增强多模态混合专家模型(M$^4$-SAM),旨在解决将Segment Anything Model 2 (SAM2)应用于该任务时面临的挑战。这些挑战包括线性LoRA有限的空间建模能力、SAM多尺度特征的利用不足以及对显式提示的依赖。M$^4$-SAM通过以下方式改进SAM2:引入模态相关的PEFT,进行分层特征融合,以及实现无提示的记忆初始化。具体而言,我们向SAM2的编码器注入了模态感知的MoE-LORA,利用卷积专家编码局部空间先验,并引入模态调度器以实现高效的多模态微调。此外,我们部署了门控多级特征融合,通过自适应门控机制分层聚合多尺度编码器特征,以平衡空间细节和语义上下文。最后,为了在没有手动提示的情况下进行零样本VSOD,我们采用伪引导初始化,将粗糙掩码视为伪先验并用于引导记忆库。大量实验表明,M$^4$-SAM在三个公共RGB-D VSOD数据集上,在所有评估指标上均达到了最先进的性能。
🔬 方法详解
问题定义:RGB-D视频显著性目标检测旨在从RGB图像和深度图像中准确分割出视频中的显著性目标。现有的方法在将SAM2应用于此任务时,存在三个主要痛点:一是线性LoRA的空间建模能力有限,无法充分捕捉局部空间信息;二是SAM的多尺度特征没有得到充分利用,导致空间细节和语义上下文信息不平衡;三是依赖显式提示进行初始化,限制了其在零样本场景下的应用。
核心思路:M$^4$-SAM的核心思路是通过引入模态感知的混合专家模型、分层特征融合和伪引导初始化,增强SAM2在RGB-D视频显著性目标检测任务中的性能。通过模态感知的混合专家模型,可以更好地捕捉不同模态的局部空间信息;通过分层特征融合,可以平衡空间细节和语义上下文信息;通过伪引导初始化,可以实现无提示的零样本显著性目标检测。
技术框架:M$^4$-SAM的整体框架包括三个主要模块:模态感知的MoE-LORA、门控多级特征融合和伪引导初始化。首先,将模态感知的MoE-LORA注入到SAM2的编码器中,用于编码局部空间先验。然后,通过门控多级特征融合模块,分层聚合多尺度编码器特征。最后,利用伪引导初始化模块,生成粗糙掩码作为伪先验,用于引导记忆库的初始化。
关键创新:M$^4$-SAM的关键创新在于以下三个方面:一是提出了模态感知的MoE-LORA,能够更好地捕捉不同模态的局部空间信息;二是提出了门控多级特征融合,能够平衡空间细节和语义上下文信息;三是提出了伪引导初始化,能够实现无提示的零样本显著性目标检测。与现有方法相比,M$^4$-SAM能够更有效地利用RGB-D信息,提高显著性目标检测的准确性和鲁棒性。
关键设计:在模态感知的MoE-LORA中,使用了卷积专家来编码局部空间先验,并引入了模态调度器来控制不同模态的信息流。在门控多级特征融合中,使用了自适应门控机制来平衡不同尺度特征的贡献。在伪引导初始化中,使用了简单的图像分割算法(例如K-means)生成粗糙掩码。损失函数方面,使用了二元交叉熵损失和Dice损失的加权和。
🖼️ 关键图片
📊 实验亮点
M$^4$-SAM在三个公开RGB-D VSOD数据集上取得了SOTA性能。例如,在NJU2000数据集上,M$^4$-SAM的S-measure达到了0.889,E-measure达到了0.932,F-measure达到了0.865,均显著优于其他基线方法。与次优方法相比,S-measure提升了约1.2%,E-measure提升了约0.8%,F-measure提升了约1.5%。这些结果表明,M$^4$-SAM能够有效地利用RGB-D信息,提高显著性目标检测的准确性和鲁棒性。
🎯 应用场景
M$^4$-SAM在机器人视觉、自动驾驶、视频监控等领域具有广泛的应用前景。例如,在机器人抓取任务中,可以利用M$^4$-SAM快速准确地识别和分割出目标物体,从而提高抓取的成功率。在自动驾驶领域,可以利用M$^4$-SAM检测和分割道路上的行人、车辆等显著性目标,从而提高驾驶的安全性。该研究的未来影响在于推动了SAM系列模型在多模态感知任务中的应用,并为相关领域的研究提供了新的思路。
📄 摘要(原文)
The Segment Anything Model 2 (SAM2) has emerged as a foundation model for universal segmentation. Owing to its generalizable visual representations, SAM2 has been successfully applied to various downstream tasks. However, extending SAM2 to the RGB-D video salient object detection (RGB-D VSOD) task encounters three challenges including limited spatial modeling of linear LoRA, insufficient employment of SAM's multi-scale features, and dependence of initialization on explicit prompts. To address the issues, we present Multi-Modal Mixture-of-Experts with Memory-Augmented SAM (M$^4$-SAM), which equips SAM2 with modality-related PEFT, hierarchical feature fusion, and prompt-free memory initialization. Firstly, we inject Modality-Aware MoE-LORA, which employs convolutional experts to encode local spatial priors and introduces a modality dispatcher for efficient multi-modal fine-tuning, into SAM2's encoder. Secondly, we deploy Gated Multi-Level Feature Fusion, which hierarchically aggregates multi-scale encoder features with an adaptive gating mechanism, to balance spatial details and semantic context. Finally, to conduct zero-shot VSOD without manual prompts, we utilize a Pseudo-Guided Initialization, where a coarse mask is regarded as a pseudo prior and used to bootstrap the memory bank. Extensive experiments demonstrate that M$^4$-SAM achieves the state-of-the-art performance across all evaluation metrics on three public RGB-D VSOD datasets.