Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation
作者: Haocheng Li, Juepeng Zheng, Shuangxi Miao, Ruibo Lu, Guosheng Cai, Haohuan Fu, Jianxi Huang
分类: cs.CV
发布日期: 2026-03-18
备注: 14 pages, 6 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出MoBaNet以解决多模态遥感语义分割中的模态不平衡问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态遥感 语义分割 模态平衡 深度学习 参数高效 跨模态融合 视觉基础模型 差异引导融合
📋 核心要点
- 现有方法在多模态遥感语义分割中面临计算开销大和模态不平衡的问题,导致辅助模态的贡献被抑制。
- 本文提出MoBaNet,通过对称双流架构和跨模态提示注入适配器,实现参数高效的多模态融合。
- 在ISPRS Vaihingen和Potsdam基准测试中,MoBaNet在显著减少可训练参数的同时,达到了最先进的性能。
📝 摘要(中文)
多模态遥感语义分割通过利用异构数据的互补物理线索来增强场景理解。尽管预训练的视觉基础模型(VFM)提供了强大的通用表示,但将其适应于多模态任务通常会带来显著的计算开销,并且在优化过程中容易出现模态不平衡现象。为了解决这些挑战,本文提出了MoBaNet,一个参数高效且模态平衡的对称融合框架。MoBaNet在一个大部分冻结的VFM骨干网络上构建,采用对称双流架构以保留可泛化的表示,同时最小化可训练参数的数量。具体而言,我们设计了跨模态提示注入适配器(CPIA),以通过生成共享提示并将其注入到瓶颈适配器中来实现深层语义交互。我们还引入了差异引导门控融合模块(DGFM),通过显式利用跨模态差异来指导特征选择,从而获得紧凑且具有区分性的多模态表示。实验结果表明,MoBaNet在ISPRS Vaihingen和Potsdam基准测试上实现了最先进的性能,同时显著减少了可训练参数的数量,验证了其在稳健和平衡的多模态融合中的有效性。
🔬 方法详解
问题定义:本文旨在解决多模态遥感语义分割中的模态不平衡和计算开销过大的问题。现有方法在适应多模态任务时,往往会导致辅助模态的贡献被抑制,从而影响模型性能。
核心思路:提出MoBaNet框架,采用对称双流架构和跨模态提示注入适配器(CPIA),在保持VFM骨干网络大部分冻结的情况下,实现深层语义交互和参数高效的多模态融合。
技术框架:MoBaNet的整体架构包括一个冻结的VFM骨干网络、CPIA模块和差异引导门控融合模块(DGFM)。CPIA用于生成共享提示并注入到瓶颈适配器中,而DGFM则通过利用跨模态差异来指导特征选择。
关键创新:最重要的创新在于引入了CPIA和DGFM模块,使得模型能够在保持较少可训练参数的同时,实现有效的多模态融合。这与现有方法的全量微调策略形成鲜明对比。
关键设计:在设计中,CPIA通过生成共享提示来增强模态间的交互,而DGFM则通过差异引导的方式进行特征融合。此外,提出的模态条件随机掩蔽(MCRM)策略在训练过程中仅对一种模态进行掩蔽,并对模态特定分支施加硬像素辅助监督,以减轻模态不平衡。
🖼️ 关键图片
📊 实验亮点
在ISPRS Vaihingen和Potsdam基准测试中,MoBaNet在显著减少可训练参数的情况下,达到了最先进的性能,验证了其在多模态遥感语义分割中的有效性和优越性。具体而言,MoBaNet的性能超过了现有的全量微调方法,显示出更好的模态平衡和融合效果。
🎯 应用场景
该研究的潜在应用领域包括遥感图像分析、环境监测和城市规划等。通过提高多模态遥感数据的语义分割性能,MoBaNet能够为相关领域提供更准确的场景理解,进而推动智能决策和资源管理的优化。未来,该方法有望在更广泛的多模态学习任务中得到应用,提升模型的适应性和效率。
📄 摘要(原文)
Multimodal remote sensing semantic segmentation enhances scene interpretation by exploiting complementary physical cues from heterogeneous data. Although pretrained Vision Foundation Models (VFMs) provide strong general-purpose representations, adapting them to multimodal tasks often incurs substantial computational overhead and is prone to modality imbalance, where the contribution of auxiliary modalities is suppressed during optimization. To address these challenges, we propose MoBaNet, a parameter-efficient and modality-balanced symmetric fusion framework. Built upon a largely frozen VFM backbone, MoBaNet adopts a symmetric dual-stream architecture to preserve generalizable representations while minimizing the number of trainable parameters. Specifically, we design a Cross-modal Prompt-Injected Adapter (CPIA) to enable deep semantic interaction by generating shared prompts and injecting them into bottleneck adapters under the frozen backbone. To obtain compact and discriminative multimodal representations for decoding, we further introduce a Difference-Guided Gated Fusion Module (DGFM), which adaptively fuses paired stage features by explicitly leveraging cross-modal discrepancy to guide feature selection. Furthermore, we propose a Modality-Conditional Random Masking (MCRM) strategy to mitigate modality imbalance by masking one modality only during training and imposing hard-pixel auxiliary supervision on modality-specific branches. Extensive experiments on the ISPRS Vaihingen and Potsdam benchmarks demonstrate that MoBaNet achieves state-of-the-art performance with significantly fewer trainable parameters than full fine-tuning, validating its effectiveness for robust and balanced multimodal fusion. The source code in this work is available at https://github.com/sauryeo/MoBaNet.