SEF-MAP: Subspace-Decomposed Expert Fusion for Robust Multimodal HD Map Prediction
作者: Haoxiang Fu, Lingfeng Zhang, Hao Li, Ruibing Hu, Zhengrong Li, Guanjing Liu, Zimu Tan, Long Chen, Hangjun Ye, Xiaoshuai Hao
分类: cs.CV
发布日期: 2026-02-25
💡 一句话要点
SEF-MAP:用于稳健多模态高清地图预测的子空间分解专家融合方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 高清地图预测 子空间分解 专家融合 自动驾驶
📋 核心要点
- 现有方法在多模态高清地图预测中,容易受到光照、遮挡和点云稀疏等因素影响,导致模态间信息不一致,性能下降。
- SEF-MAP将BEV特征分解为四个语义子空间,并为每个子空间分配专家,利用不确定性门控机制自适应融合,提升鲁棒性。
- 在nuScenes和Argoverse2数据集上,SEF-MAP的mAP分别提升了4.2%和4.8%,证明了其在恶劣条件下的优越性能。
📝 摘要(中文)
高清地图对于自动驾驶至关重要,但多模态融合常常受到摄像头和激光雷达模态之间不一致性的影响,导致在低光照、遮挡或稀疏点云等条件下性能下降。为了解决这个问题,我们提出了SEF-MAP,一个用于稳健多模态高清地图预测的子空间专家融合框架。其核心思想是将BEV特征显式地分解为四个语义子空间:激光雷达私有、图像私有、共享和交互。每个子空间都被分配一个专门的专家,从而在捕获跨模态共识的同时保留模态特定的线索。为了自适应地组合专家输出,我们在BEV-cell级别引入了一种不确定性感知门控机制,其中不可靠的专家根据预测方差被降低权重,并辅以使用平衡正则化器以防止专家崩溃。为了增强在退化条件下的鲁棒性并促进角色专业化,我们进一步提出了分布感知掩码:在训练期间,使用EMA统计代理特征模拟模态丢失场景,并且专业化损失强制私有、共享和交互专家在完整和掩码输入上表现出不同的行为。在nuScenes和Argoverse2基准测试上的实验表明,SEF-MAP实现了最先进的性能,在mAP方面分别超过了先前方法+4.2%和+4.8%。SEF-MAP为在各种退化条件下进行多模态高清地图预测提供了一种稳健有效的解决方案。
🔬 方法详解
问题定义:论文旨在解决多模态高清地图预测中,由于激光雷达和相机数据在恶劣环境下的不一致性,导致融合性能下降的问题。现有方法难以有效利用不同模态的互补信息,并且容易受到单一模态数据质量的影响。
核心思路:论文的核心思路是将BEV特征分解为多个语义子空间,每个子空间代表不同模态的私有信息、共享信息以及交互信息。通过为每个子空间分配一个专家网络,可以更好地捕捉不同模态的特征,并利用不确定性感知的门控机制自适应地融合这些特征。
技术框架:SEF-MAP框架主要包含以下几个模块:1) 特征提取模块:分别从激光雷达和相机数据中提取BEV特征。2) 子空间分解模块:将BEV特征分解为激光雷达私有、图像私有、共享和交互四个子空间。3) 专家网络模块:为每个子空间分配一个专家网络,用于学习该子空间的特征表示。4) 不确定性感知门控模块:根据每个专家的预测方差,自适应地调整其输出权重。5) 地图预测模块:将融合后的特征用于高清地图元素的预测。
关键创新:该论文的关键创新在于子空间分解和专家融合的思想。通过将BEV特征分解为多个语义子空间,可以更好地捕捉不同模态的特征,并利用专家网络学习每个子空间的特征表示。此外,不确定性感知的门控机制可以自适应地调整不同专家的输出权重,从而提高模型的鲁棒性。与现有方法相比,SEF-MAP能够更有效地利用多模态信息,并且对恶劣环境具有更强的适应性。
关键设计:论文中一个关键的设计是分布感知掩码(Distribution-aware Masking)。在训练过程中,通过模拟模态丢失的情况,并结合EMA统计代理特征,来增强模型在退化条件下的鲁棒性。此外,还设计了一个专业化损失(Specialization Loss),用于鼓励私有、共享和交互专家在完整和掩码输入上表现出不同的行为,从而促进角色专业化。不确定性门控机制中的使用平衡正则化器用于防止某个专家被过度依赖,保证所有专家都能学习到有用的信息。
🖼️ 关键图片
📊 实验亮点
SEF-MAP在nuScenes和Argoverse2数据集上取得了显著的性能提升。在nuScenes数据集上,SEF-MAP的mAP达到了最佳水平,超过了现有方法4.2%。在Argoverse2数据集上,SEF-MAP的mAP提升了4.8%。这些结果表明,SEF-MAP在多模态高清地图预测方面具有显著的优势。
🎯 应用场景
SEF-MAP技术可应用于各种自动驾驶场景,尤其是在光照条件不佳、遮挡严重或传感器数据质量较差的情况下。该方法能够提高高清地图预测的准确性和鲁棒性,从而提升自动驾驶系统的安全性和可靠性。未来,该技术还可以扩展到其他多模态感知任务中,例如目标检测、语义分割等。
📄 摘要(原文)
High-definition (HD) maps are essential for autonomous driving, yet multi-modal fusion often suffers from inconsistency between camera and LiDAR modalities, leading to performance degradation under low-light conditions, occlusions, or sparse point clouds. To address this, we propose SEFMAP, a Subspace-Expert Fusion framework for robust multimodal HD map prediction. The key idea is to explicitly disentangle BEV features into four semantic subspaces: LiDAR-private, Image-private, Shared, and Interaction. Each subspace is assigned a dedicated expert, thereby preserving modality-specific cues while capturing cross-modal consensus. To adaptively combine expert outputs, we introduce an uncertainty-aware gating mechanism at the BEV-cell level, where unreliable experts are down-weighted based on predictive variance, complemented by a usage balance regularizer to prevent expert collapse. To enhance robustness in degraded conditions and promote role specialization, we further propose distribution-aware masking: during training, modality-drop scenarios are simulated using EMA-statistical surrogate features, and a specialization loss enforces distinct behaviors of private, shared, and interaction experts across complete and masked inputs. Experiments on nuScenes and Argoverse2 benchmarks demonstrate that SEFMAP achieves state-of-the-art performance, surpassing prior methods by +4.2% and +4.8% in mAP, respectively. SEF-MAPprovides a robust and effective solution for multi-modal HD map prediction under diverse and degraded conditions.