CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes

📄 arXiv: 2410.10791v2 📥 PDF

作者: Tim Broedermann, Christos Sakaridis, Yuqian Fu, Luc Van Gool

分类: cs.CV

发布日期: 2024-10-14 (更新: 2025-01-27)

备注: IEEE Robotics and Automation Letters, The source code is publicly available at: https://github.com/timbroed/CAFuser

🔗 代码/项目: GITHUB


💡 一句话要点

提出CAFuser,一种条件感知多模态融合方法,提升驾驶场景语义感知鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 条件感知 语义分割 自动驾驶 传感器融合 鲁棒性 环境感知

📋 核心要点

  1. 现有传感器融合方法在各种条件下对所有传感器同等对待,导致性能欠佳,无法充分利用不同传感器的互补优势。
  2. CAFuser利用RGB图像识别环境条件,生成条件令牌指导多模态融合,并使用模态特定适配器对齐特征到共享空间。
  3. 实验表明,CAFuser在MUSES和DeLiVER数据集上均取得领先成果,尤其在恶劣天气下显著提升了感知性能。

📝 摘要(中文)

本文提出了一种新颖的、条件感知的多模态融合方法CAFuser,用于提升自动驾驶场景中语义感知的鲁棒性。该方法利用RGB相机输入对环境条件进行分类,并生成一个条件令牌(Condition Token),用于指导多种传感器模态的融合。此外,还引入了模态特定的特征适配器,将不同的传感器输入对齐到一个共享的潜在空间,从而能够与单个共享的预训练骨干网络进行高效集成。通过基于实际条件动态地调整传感器融合,该模型显著提高了鲁棒性和准确性,尤其是在恶劣条件场景下。CAFuser在MUSES基准测试中排名第一,在多模态全景分割中实现了59.7 PQ,在语义分割中实现了78.2 mIoU,并且在DeLiVER数据集上取得了新的state-of-the-art。

🔬 方法详解

问题定义:自动驾驶场景下的语义感知需要融合多种传感器信息以提高鲁棒性。然而,现有方法通常忽略环境条件的影响,对所有传感器采用相同的融合策略,无法充分利用不同传感器在不同条件下的优势,导致在恶劣天气等复杂场景下性能下降。

核心思路:核心在于根据环境条件动态调整多模态融合策略。通过分析RGB图像识别当前环境条件,并利用这些信息指导后续的传感器融合过程,从而使模型能够根据实际情况选择最合适的传感器信息。

技术框架:CAFuser包含以下主要模块:1) 环境条件分类器:利用RGB图像预测环境条件,生成条件令牌。2) 模态特定特征适配器:将不同传感器的特征映射到共享的潜在空间。3) 融合模块:利用条件令牌指导多模态特征的融合。4) 语义分割/全景分割头:基于融合后的特征进行语义分割或全景分割。整体流程是,首先利用RGB图像提取环境信息,然后将不同传感器的特征通过适配器映射到共享空间,最后利用条件令牌指导融合,并进行最终的语义感知。

关键创新:最关键的创新在于条件感知的融合机制。与现有方法不同,CAFuser不是静态地融合所有传感器信息,而是根据环境条件动态地调整融合策略。这种条件感知的融合方式能够更好地利用不同传感器在不同条件下的优势,从而提高整体的鲁棒性和准确性。

关键设计:1) 条件令牌的设计:条件令牌是对环境条件的编码,用于指导融合过程。2) 模态特定特征适配器的设计:适配器用于将不同传感器的特征映射到共享空间,保证特征的可比性。3) 损失函数的设计:采用交叉熵损失函数进行语义分割,采用PQ指标进行全景分割。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CAFuser在MUSES基准测试中取得了显著的性能提升,多模态全景分割PQ达到59.7,语义分割mIoU达到78.2,均排名第一。同时,在DeLiVER数据集上也刷新了state-of-the-art。这些结果表明,该方法在恶劣条件下的鲁棒性和准确性方面具有显著优势。

🎯 应用场景

该研究成果可应用于自动驾驶、高级驾驶辅助系统(ADAS)等领域,尤其是在恶劣天气或复杂光照条件下,能够显著提升车辆对周围环境的感知能力,提高驾驶安全性。未来,该方法还可以扩展到其他需要多模态融合的机器人应用场景,例如无人机、服务机器人等。

📄 摘要(原文)

Leveraging multiple sensors is crucial for robust semantic perception in autonomous driving, as each sensor type has complementary strengths and weaknesses. However, existing sensor fusion methods often treat sensors uniformly across all conditions, leading to suboptimal performance. By contrast, we propose a novel, condition-aware multimodal fusion approach for robust semantic perception of driving scenes. Our method, CAFuser, uses an RGB camera input to classify environmental conditions and generate a Condition Token that guides the fusion of multiple sensor modalities. We further newly introduce modality-specific feature adapters to align diverse sensor inputs into a shared latent space, enabling efficient integration with a single and shared pre-trained backbone. By dynamically adapting sensor fusion based on the actual condition, our model significantly improves robustness and accuracy, especially in adverse-condition scenarios. CAFuser ranks first on the public MUSES benchmarks, achieving 59.7 PQ for multimodal panoptic and 78.2 mIoU for semantic segmentation, and also sets the new state of the art on DeLiVER. The source code is publicly available at: https://github.com/timbroed/CAFuser.