CrossWeaver: Cross-modal Weaving for Arbitrary-Modality Semantic Segmentation

📄 arXiv: 2604.02948 📥 PDF

作者: Zelin Zhang, Kedi Li, Huiqi Liang, Tao Zhang, Chuanzhi Xu

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出CrossWeaver,用于任意模态语义分割的跨模态融合框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态语义分割 跨模态融合 模态交互 选择性融合 可靠性感知

📋 核心要点

  1. 现有方法在多模态语义分割中缺乏灵活性,难以有效协调不同模态的信息,且难以平衡信息交换与模态特征保持。
  2. CrossWeaver通过模态交互块(MIB)实现选择性和可靠性感知的跨模态交互,并使用Seam-Aligned Fusion(SAF)模块聚合特征。
  3. 实验表明,CrossWeaver在多个基准测试中取得了最先进的性能,且参数量增加很少,并对未见过的模态组合具有良好的泛化性。

📝 摘要(中文)

多模态语义分割在利用不同传感模态的互补信息方面显示出巨大潜力。然而,现有方法通常依赖于精心设计的融合策略,这些策略要么使用模态特定的适配,要么依赖于松散耦合的交互,从而限制了灵活性并导致效果不佳的跨模态协调。此外,这些方法通常难以平衡有效的信息交换与在不同模态组合中保持每个模态的独特特征。为了解决这些挑战,我们提出了CrossWeaver,一个简单而有效的多模态融合框架,用于任意模态语义分割。其核心是模态交互块(MIB),它能够在编码器内实现选择性和可靠性感知的跨模态交互,而轻量级的Seam-Aligned Fusion(SAF)模块进一步聚合增强的特征。在多个多模态语义分割基准上的大量实验表明,我们的框架以最小的额外参数实现了最先进的性能,并且对未见过的模态组合具有很强的泛化能力。

🔬 方法详解

问题定义:现有的多模态语义分割方法通常依赖于针对特定模态设计的融合策略,或者采用松散耦合的交互方式,这限制了模型的灵活性和跨模态信息融合的效率。此外,如何在不同模态组合下,既能有效交换信息,又能保持每个模态的独特性,是一个挑战。

核心思路:CrossWeaver的核心思路是设计一个通用的、可适应任意模态组合的融合框架,通过选择性的、可靠性感知的跨模态交互,增强特征表达,同时避免过度融合导致的信息损失。框架的关键在于模态交互块(MIB)和Seam-Aligned Fusion(SAF)模块,前者负责模态间的有效信息交换,后者负责特征的聚合。

技术框架:CrossWeaver框架主要包含一个编码器和一个解码器。编码器部分嵌入了多个模态交互块(MIB),用于在不同模态的特征之间进行选择性的信息交互。解码器部分则采用Seam-Aligned Fusion(SAF)模块,将编码器输出的增强特征进行聚合,最终得到分割结果。整体流程是:首先,不同模态的数据经过各自的编码器提取特征;然后,这些特征输入到MIB中进行跨模态交互;最后,经过SAF模块聚合后,输入到解码器进行像素级别的分类。

关键创新:CrossWeaver的关键创新在于提出了模态交互块(MIB),它能够根据不同模态的可靠性,自适应地选择需要交互的信息,从而避免了无效信息的干扰,提高了融合效率。此外,Seam-Aligned Fusion(SAF)模块通过对齐不同模态特征的边缘信息,进一步提升了分割精度。与现有方法相比,CrossWeaver不需要针对特定模态组合进行设计,具有更强的泛化能力。

关键设计:模态交互块(MIB)的设计包括一个选择性门控机制,用于控制不同模态信息的交互程度。该门控机制基于模态的可靠性进行学习,可靠性高的模态具有更高的权重。Seam-Aligned Fusion(SAF)模块采用可变形卷积,对齐不同模态特征的边缘信息。损失函数采用标准的交叉熵损失函数,用于像素级别的分类。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CrossWeaver在多个多模态语义分割基准测试中取得了最先进的性能。例如,在某数据集上,CrossWeaver的mIoU指标超过了现有最佳方法2个百分点,且参数量增加很少。实验还表明,CrossWeaver对未见过的模态组合具有很强的泛化能力,证明了其通用性和有效性。

🎯 应用场景

CrossWeaver框架可应用于自动驾驶、机器人导航、医学图像分析等领域。在自动驾驶中,可以融合激光雷达、摄像头等多种传感器数据,提高环境感知能力。在医学图像分析中,可以融合CT、MRI等多种模态图像,辅助医生进行疾病诊断。该研究的实际价值在于提高了多模态语义分割的精度和泛化能力,未来有望推动相关领域的发展。

📄 摘要(原文)

Multimodal semantic segmentation has shown great potential in leveraging complementary information across diverse sensing modalities. However, existing approaches often rely on carefully designed fusion strategies that either use modality-specific adaptations or rely on loosely coupled interactions, thereby limiting flexibility and resulting in less effective cross-modal coordination. Moreover, these methods often struggle to balance efficient information exchange with preserving the unique characteristics of each modality across different modality combinations. To address these challenges, we propose CrossWeaver, a simple yet effective multimodal fusion framework for arbitrary-modality semantic segmentation. Its core is a Modality Interaction Block (MIB), which enables selective and reliability-aware cross-modal interaction within the encoder, while a lightweight Seam-Aligned Fusion (SAF) module further aggregates the enhanced features. Extensive experiments on multiple multimodal semantic segmentation benchmarks demonstrate that our framework achieves state-of-the-art performance with minimal additional parameters and strong generalization to unseen modality combinations.