M$^4$-SAM: Multi-Modal Mixture-of-Experts with Memory-Augmented SAM for RGB-D Video Salient Object Detection

作者: Jiyuan Liu, Jia Lin, Xiaofei Zhou, Runmin Cong, Deyang Liu, Zhi Liu

分类: cs.CV

发布日期: 2026-05-12

备注: 10 pages, 3 figures

💡 一句话要点

M$^4$-SAM：面向RGB-D视频显著性目标检测的记忆增强多模态混合专家模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: RGB-D视频显著性目标检测 Segment Anything Model 多模态融合 混合专家模型 记忆增强 零样本学习 伪引导初始化

📋 核心要点

RGB-D视频显著性目标检测面临SAM2空间建模不足、多尺度特征利用不充分和依赖显式提示等挑战。
M$^4$-SAM通过模态感知MoE-LORA、门控多级特征融合和伪引导初始化，增强SAM2在RGB-D VSOD任务中的性能。
实验结果表明，M$^4$-SAM在三个RGB-D VSOD数据集上取得了SOTA性能，验证了其有效性。

📝 摘要（中文）

本文提出了一种用于RGB-D视频显著性目标检测的记忆增强多模态混合专家模型（M$^4$-SAM），旨在解决将Segment Anything Model 2 (SAM2)应用于该任务时面临的挑战。这些挑战包括线性LoRA有限的空间建模能力、SAM多尺度特征的利用不足以及对显式提示的依赖。M$^4$-SAM通过以下方式改进SAM2：引入模态相关的PEFT，进行分层特征融合，以及实现无提示的记忆初始化。具体而言，我们向SAM2的编码器注入了模态感知的MoE-LORA，利用卷积专家编码局部空间先验，并引入模态调度器以实现高效的多模态微调。此外，我们部署了门控多级特征融合，通过自适应门控机制分层聚合多尺度编码器特征，以平衡空间细节和语义上下文。最后，为了在没有手动提示的情况下进行零样本VSOD，我们采用伪引导初始化，将粗糙掩码视为伪先验并用于引导记忆库。大量实验表明，M$^4$-SAM在三个公共RGB-D VSOD数据集上，在所有评估指标上均达到了最先进的性能。

🔬 方法详解

问题定义：RGB-D视频显著性目标检测旨在从RGB图像和深度图像中准确分割出视频中的显著性目标。现有的方法在将SAM2应用于此任务时，存在三个主要痛点：一是线性LoRA的空间建模能力有限，无法充分捕捉局部空间信息；二是SAM的多尺度特征没有得到充分利用，导致空间细节和语义上下文信息不平衡；三是依赖显式提示进行初始化，限制了其在零样本场景下的应用。

核心思路：M$^4$-SAM的核心思路是通过引入模态感知的混合专家模型、分层特征融合和伪引导初始化，增强SAM2在RGB-D视频显著性目标检测任务中的性能。通过模态感知的混合专家模型，可以更好地捕捉不同模态的局部空间信息；通过分层特征融合，可以平衡空间细节和语义上下文信息；通过伪引导初始化，可以实现无提示的零样本显著性目标检测。

技术框架：M$^4$-SAM的整体框架包括三个主要模块：模态感知的MoE-LORA、门控多级特征融合和伪引导初始化。首先，将模态感知的MoE-LORA注入到SAM2的编码器中，用于编码局部空间先验。然后，通过门控多级特征融合模块，分层聚合多尺度编码器特征。最后，利用伪引导初始化模块，生成粗糙掩码作为伪先验，用于引导记忆库的初始化。

关键创新：M$^4$-SAM的关键创新在于以下三个方面：一是提出了模态感知的MoE-LORA，能够更好地捕捉不同模态的局部空间信息；二是提出了门控多级特征融合，能够平衡空间细节和语义上下文信息；三是提出了伪引导初始化，能够实现无提示的零样本显著性目标检测。与现有方法相比，M$^4$-SAM能够更有效地利用RGB-D信息，提高显著性目标检测的准确性和鲁棒性。

关键设计：在模态感知的MoE-LORA中，使用了卷积专家来编码局部空间先验，并引入了模态调度器来控制不同模态的信息流。在门控多级特征融合中，使用了自适应门控机制来平衡不同尺度特征的贡献。在伪引导初始化中，使用了简单的图像分割算法（例如K-means）生成粗糙掩码。损失函数方面，使用了二元交叉熵损失和Dice损失的加权和。

🖼️ 关键图片

📊 实验亮点

M$^4$-SAM在三个公开RGB-D VSOD数据集上取得了SOTA性能。例如，在NJU2000数据集上，M$^4$-SAM的S-measure达到了0.889，E-measure达到了0.932，F-measure达到了0.865，均显著优于其他基线方法。与次优方法相比，S-measure提升了约1.2%，E-measure提升了约0.8%，F-measure提升了约1.5%。这些结果表明，M$^4$-SAM能够有效地利用RGB-D信息，提高显著性目标检测的准确性和鲁棒性。

🎯 应用场景

M$^4$-SAM在机器人视觉、自动驾驶、视频监控等领域具有广泛的应用前景。例如，在机器人抓取任务中，可以利用M$^4$-SAM快速准确地识别和分割出目标物体，从而提高抓取的成功率。在自动驾驶领域，可以利用M$^4$-SAM检测和分割道路上的行人、车辆等显著性目标，从而提高驾驶的安全性。该研究的未来影响在于推动了SAM系列模型在多模态感知任务中的应用，并为相关领域的研究提供了新的思路。

📄 摘要（原文）

The Segment Anything Model 2 (SAM2) has emerged as a foundation model for universal segmentation. Owing to its generalizable visual representations, SAM2 has been successfully applied to various downstream tasks. However, extending SAM2 to the RGB-D video salient object detection (RGB-D VSOD) task encounters three challenges including limited spatial modeling of linear LoRA, insufficient employment of SAM's multi-scale features, and dependence of initialization on explicit prompts. To address the issues, we present Multi-Modal Mixture-of-Experts with Memory-Augmented SAM (M$^4$-SAM), which equips SAM2 with modality-related PEFT, hierarchical feature fusion, and prompt-free memory initialization. Firstly, we inject Modality-Aware MoE-LORA, which employs convolutional experts to encode local spatial priors and introduces a modality dispatcher for efficient multi-modal fine-tuning, into SAM2's encoder. Secondly, we deploy Gated Multi-Level Feature Fusion, which hierarchically aggregates multi-scale encoder features with an adaptive gating mechanism, to balance spatial details and semantic context. Finally, to conduct zero-shot VSOD without manual prompts, we utilize a Pseudo-Guided Initialization, where a coarse mask is regarded as a pseudo prior and used to bootstrap the memory bank. Extensive experiments demonstrate that M$^4$-SAM achieves the state-of-the-art performance across all evaluation metrics on three public RGB-D VSOD datasets.

M$^4$-SAM: Multi-Modal Mixture-of-Experts with Memory-Augmented SAM for RGB-D Video Salient Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理