Prompting Foundation Models for Zero-Shot Ship Instance Segmentation in SAR Imagery
作者: Islam Mansour, Francescopaolo Sica, Michael Schmitt
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-04-20
备注: 6 pages
💡 一句话要点
利用YOLOv11检测框提示SAM2,实现SAR图像零样本舰船实例分割
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: SAR图像 舰船实例分割 零样本学习 YOLOv11 Segment Anything Model 目标检测 视觉基础模型
📋 核心要点
- SAR图像分析缺乏像素级标注数据,限制了深度学习的应用。
- 利用YOLOv11检测框提示SAM2,无需微调即可实现零样本舰船实例分割。
- 实验表明,该方法在SSDD数据集上取得了接近全监督的性能。
📝 摘要(中文)
合成孔径雷达(SAR)在海上监视中起着关键作用,但用于SAR分析的深度学习受到像素级标注数据缺乏的限制。本文探讨了通用视觉基础模型如何在SAR图像中实现零样本舰船实例分割,从而无需像素级监督。具体而言,使用在开放SAR数据集上训练的基于YOLOv11的检测器通过边界框定位舰船,然后提示Segment Anything Model 2 (SAM2)生成实例掩码,而无需任何掩码标注。与之前依赖微调或适配器的基于SAM的SAR方法不同,我们的方法表明,仅来自SAR训练的检测器的空间约束就可以有效地正则化基础模型的预测。这种设计部分缓解了光学-SAR域的差距,并支持下游应用,如船舶分类、尺寸估计和尾流分析。在SSDD基准上的实验实现了0.637的平均IoU(达到全监督基线的89%),总体船舶检测率为89.2%,证实了一种可扩展的、标注高效的、由基础模型驱动的SAR图像理解方法。
🔬 方法详解
问题定义:现有的SAR图像舰船实例分割方法通常依赖于大量的像素级标注数据进行训练,而获取这些标注数据成本高昂。因此,如何在缺乏像素级标注的情况下,实现SAR图像中舰船的准确分割是一个关键问题。现有方法,如直接应用通用分割模型,由于光学图像和SAR图像之间的显著差异(域差距),效果往往不佳。
核心思路:本文的核心思路是利用目标检测器提供的空间约束来引导视觉基础模型SAM2进行分割。具体来说,首先使用在SAR数据上训练的YOLOv11检测器来定位图像中的舰船,获得其边界框。然后,将这些边界框作为SAM2的提示,引导SAM2生成相应的实例掩码。这种方法避免了直接在SAR图像上训练分割模型,从而实现了零样本分割。
技术框架:整体框架包含两个主要模块:1) 基于YOLOv11的舰船检测器:该检测器在公开的SAR数据集上进行训练,用于生成舰船的边界框。2) Segment Anything Model 2 (SAM2):该模型接收YOLOv11提供的边界框作为提示,生成相应的舰船实例掩码。整个流程无需对SAM2进行任何微调或适配。
关键创新:本文的关键创新在于利用目标检测器的空间约束来正则化视觉基础模型的预测,从而缓解了光学-SAR域的差距。与之前需要对SAM进行微调或添加适配器的方法不同,本文的方法完全依赖于零样本能力,更具通用性和可扩展性。
关键设计:YOLOv11检测器采用标准的网络结构和训练流程,损失函数包括分类损失、回归损失和置信度损失。SAM2采用默认的参数设置,无需任何修改。关键在于YOLOv11检测器的训练数据集的选择,需要包含足够多的SAR图像,以保证检测器的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在SSDD数据集上实现了0.637的平均IoU,达到了全监督基线的89%。同时,总体船舶检测率达到了89.2%。这些结果表明,即使在没有像素级标注的情况下,通过结合目标检测器和视觉基础模型,也可以实现高性能的SAR图像舰船实例分割。
🎯 应用场景
该研究成果可应用于海上监视、船舶交通管理、海洋资源调查等领域。通过零样本舰船实例分割,可以快速准确地识别和分割SAR图像中的舰船,为后续的船舶分类、尺寸估计、尾流分析等任务提供基础。该方法降低了对标注数据的依赖,具有很高的实际应用价值和推广潜力。
📄 摘要(原文)
Synthetic Aperture Radar (SAR) plays a critical role in maritime surveillance, yet deep learning for SAR analysis is limited by the lack of pixel-level annotations. This paper explores how general-purpose vision foundation models can enable zero-shot ship instance segmentation in SAR imagery, eliminating the need for pixel-level supervision. A YOLOv11-based detector trained on open SAR datasets localizes ships via bounding boxes, which then prompt the Segment Anything Model 2 (SAM2) to produce instance masks without any mask annotations. Unlike prior SAM-based SAR approaches that rely on fine tuning or adapters, our method demonstrates that spatial constraints from a SAR-trained detector alone can effectively regularize foundation model predictions. This design partially mitigates the optical-SAR domain gap and enables downstream applications such as vessel classification, size estimation, and wake analysis. Experiments on the SSDD benchmark achieve a mean IoU of 0.637 (89% of a fully supervised baseline) with an overall ship detection rate of 89.2%, confirming a scalable, annotation-efficient pathway toward foundation-model-driven SAR image understanding.