AD-SAM: Fine-Tuning the Segment Anything Vision Foundation Model for Autonomous Driving Perception
作者: Mario Camarena, Het Patel, Fatemeh Nazari, Evangelos Papalexakis, Mohamadhossein Noruzoliaee, Jia Chen
分类: cs.CV
发布日期: 2025-10-30
备注: Submitted to IEEE Transactions on Intelligent Transportation Systems (IEEE T-ITS)
💡 一句话要点
AD-SAM:微调SAM视觉基础模型,用于自动驾驶感知
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 语义分割 视觉基础模型 微调 可变形卷积
📋 核心要点
- 现有方法难以兼顾自动驾驶场景中全局语义信息和局部空间细节,导致分割精度不足。
- AD-SAM通过双编码器融合全局语义和局部空间信息,并利用可变形模块对齐异构特征,提升分割性能。
- 实验表明,AD-SAM在Cityscapes和BDD100K数据集上显著优于SAM、G-SAM和DeepLabV3,mIoU分别提升高达22.9和19.2。
📝 摘要(中文)
本文提出了自动驾驶分割一切模型(AD-SAM),这是一个为自动驾驶(AD)中的语义分割而微调的视觉基础模型。AD-SAM通过双编码器和可变形解码器扩展了分割一切模型(SAM),以适应道路场景的空间和几何复杂性。双编码器通过结合来自SAM的预训练Vision Transformer(ViT-H)的全局语义上下文和来自可训练卷积深度学习骨干网络(即ResNet-50)的局部空间细节来生成多尺度融合表示。可变形融合模块对齐跨尺度和对象几何形状的异构特征。解码器使用可变形注意力执行渐进式多阶段细化。训练由混合损失引导,该混合损失集成了Focal、Dice、Lovasz-Softmax和Surface损失,从而提高了语义类平衡、边界精度和优化稳定性。在Cityscapes和Berkeley DeepDrive 100K(BDD100K)基准测试上的实验表明,AD-SAM在分割精度方面超过了SAM、广义SAM(G-SAM)和深度学习基线(DeepLabV3)。它在Cityscapes上实现了68.1的平均交并比(mIoU),在BDD100K上实现了59.5的mIoU,在结构化和多样化的道路场景中,分别比SAM、G-SAM和DeepLabV3高出高达+22.9和+19.2 mIoU。AD-SAM展示了强大的跨域泛化能力,保留分数为0.87(SAM为0.76),以及更快、更稳定的学习动态,在30-40个epoch内收敛,享受着基准模型两倍的学习速度。它仅用1000个样本就保持了0.607的mIoU,表明了对降低标注成本至关重要的数据效率。这些结果证实,对基础模型进行有针对性的架构和优化增强能够实现可靠且可扩展的AD感知。
🔬 方法详解
问题定义:论文旨在解决自动驾驶场景下的语义分割问题。现有方法,如直接使用SAM,无法很好地处理道路场景中复杂的空间几何结构和多尺度对象,导致分割精度较低。此外,现有方法在跨域泛化能力和数据效率方面也存在不足。
核心思路:论文的核心思路是通过微调SAM,使其更适应自动驾驶场景的特点。具体来说,通过引入双编码器结构,融合全局语义信息和局部空间细节,并使用可变形模块来对齐不同尺度的特征。此外,还设计了混合损失函数,以提高语义类平衡和边界精度。
技术框架:AD-SAM的整体架构包括以下几个主要模块:1) 双编码器:使用SAM的ViT-H提取全局语义特征,使用ResNet-50提取局部空间特征。2) 可变形融合模块:对齐来自两个编码器的异构特征。3) 可变形解码器:使用可变形注意力进行多阶段细化,逐步提升分割精度。4) 混合损失函数:结合Focal、Dice、Lovasz-Softmax和Surface损失,优化模型训练。
关键创新:AD-SAM的关键创新在于:1) 双编码器结构,有效融合了全局语义信息和局部空间细节。2) 可变形融合模块和可变形解码器的使用,能够更好地处理道路场景中复杂的空间几何结构。3) 混合损失函数的设计,提高了语义类平衡和边界精度。与现有方法相比,AD-SAM更专注于自动驾驶场景的特点,通过针对性的架构和优化,显著提升了分割性能。
关键设计:1) ResNet-50作为局部特征提取的骨干网络。2) 可变形卷积和可变形注意力用于处理空间几何结构。3) 混合损失函数中,Focal Loss用于解决类别不平衡问题,Dice Loss和Lovasz-Softmax Loss用于优化分割结果,Surface Loss用于提高边界精度。4) 训练过程中,使用AdamW优化器,并设置合适的学习率和权重衰减。
📊 实验亮点
AD-SAM在Cityscapes和BDD100K数据集上取得了显著的性能提升。在Cityscapes上,AD-SAM的mIoU达到了68.1,比SAM、G-SAM和DeepLabV3分别高出22.9、14.8和6.3。在BDD100K上,AD-SAM的mIoU达到了59.5,比SAM、G-SAM和DeepLabV3分别高出19.2、12.5和5.1。此外,AD-SAM还表现出更强的跨域泛化能力和数据效率。
🎯 应用场景
AD-SAM可应用于自动驾驶汽车的环境感知系统,为车辆提供更准确的场景理解,从而提高驾驶安全性。此外,该模型也可用于高精地图构建、智能交通管理等领域,具有广阔的应用前景和实际价值。未来,可以进一步探索AD-SAM在其他机器人感知任务中的应用。
📄 摘要(原文)
This paper presents the Autonomous Driving Segment Anything Model (AD-SAM), a fine-tuned vision foundation model for semantic segmentation in autonomous driving (AD). AD-SAM extends the Segment Anything Model (SAM) with a dual-encoder and deformable decoder tailored to spatial and geometric complexity of road scenes. The dual-encoder produces multi-scale fused representations by combining global semantic context from SAM's pretrained Vision Transformer (ViT-H) with local spatial detail from a trainable convolutional deep learning backbone (i.e., ResNet-50). A deformable fusion module aligns heterogeneous features across scales and object geometries. The decoder performs progressive multi-stage refinement using deformable attention. Training is guided by a hybrid loss that integrates Focal, Dice, Lovasz-Softmax, and Surface losses, improving semantic class balance, boundary precision, and optimization stability. Experiments on the Cityscapes and Berkeley DeepDrive 100K (BDD100K) benchmarks show that AD-SAM surpasses SAM, Generalized SAM (G-SAM), and a deep learning baseline (DeepLabV3) in segmentation accuracy. It achieves 68.1 mean Intersection over Union (mIoU) on Cityscapes and 59.5 mIoU on BDD100K, outperforming SAM, G-SAM, and DeepLabV3 by margins of up to +22.9 and +19.2 mIoU in structured and diverse road scenes, respectively. AD-SAM demonstrates strong cross-domain generalization with a 0.87 retention score (vs. 0.76 for SAM), and faster, more stable learning dynamics, converging within 30-40 epochs, enjoying double the learning speed of benchmark models. It maintains 0.607 mIoU with only 1000 samples, suggesting data efficiency critical for reducing annotation costs. These results confirm that targeted architectural and optimization enhancements to foundation models enable reliable and scalable AD perception.