No time to train! Training-Free Reference-Based Instance Segmentation

📄 arXiv: 2507.02798v2 📥 PDF

作者: Miguel Espinosa, Chenhongyi Yang, Linus Ericsson, Steven McDonagh, Elliot J. Crowley

分类: cs.CV

发布日期: 2025-07-03 (更新: 2025-07-05)

备注: Preprint


💡 一句话要点

提出一种免训练的参考图像实例分割方法,利用语义先验实现高效分割。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 实例分割 免训练学习 小样本学习 语义先验 特征匹配

📋 核心要点

  1. 现有图像分割模型依赖大量标注数据,成本高昂,SAM虽然降低了标注需求,但仍需人工或领域特定的提示。
  2. 该论文利用基础模型学习的语义先验,通过参考图像与目标图像的对应关系,自动生成实例分割掩码。
  3. 实验结果表明,该方法在多个Few-Shot分割数据集上取得了显著提升,达到了当前最佳性能。

📝 摘要(中文)

图像分割模型的性能一直受限于大规模标注数据的昂贵成本。Segment Anything Model (SAM) 通过可提示的、语义无关的分割范式缓解了这个问题,但仍然需要手动视觉提示或复杂的、领域相关的提示生成规则来处理新图像。为了减轻这种新负担,我们的工作研究了仅提供少量参考图像时的对象分割任务。我们的关键见解是利用基础模型学习到的强大语义先验,来识别参考图像和目标图像之间的对应区域。我们发现,对应关系能够自动生成实例级别的分割掩码,用于下游任务。我们通过一个多阶段、免训练的方法来实现我们的想法,该方法包括 (1) 记忆库构建;(2) 表征聚合;(3) 语义感知的特征匹配。实验表明,我们的方法在分割指标上取得了显著的改进,在 COCO FSOD (36.8% nAP)、PASCAL VOC Few-Shot (71.2% nAP50) 上实现了最先进的性能,并在 Cross-Domain FSOD 基准测试中优于现有的免训练方法 (22.4% nAP)。

🔬 方法详解

问题定义:现有实例分割方法通常需要大量标注数据进行训练,或者依赖人工设计的提示。即使是像SAM这样的模型,也需要针对特定任务设计复杂的提示策略。这限制了它们在数据稀缺或领域迁移场景下的应用。因此,该论文旨在解决在仅有少量参考图像的情况下,如何实现高效、准确的实例分割问题。

核心思路:该论文的核心思路是利用预训练模型(foundation models)学习到的强大语义先验知识,来建立参考图像和目标图像之间的对应关系。通过找到两幅图像中语义相似的区域,可以将参考图像中的分割信息迁移到目标图像上,从而实现免训练的实例分割。这种方法避免了对大量标注数据的依赖,也无需人工设计提示。

技术框架:该方法主要包含三个阶段:(1) 记忆库构建:从参考图像中提取特征,并构建一个记忆库,用于存储参考图像的表征。(2) 表征聚合:对目标图像进行特征提取,并利用记忆库中的信息,聚合目标图像的特征,增强其语义表达能力。(3) 语义感知的特征匹配:通过计算目标图像和参考图像特征之间的相似度,建立对应关系,并将参考图像的分割掩码迁移到目标图像上。

关键创新:该方法最重要的创新在于,它完全摆脱了对训练数据的依赖,实现了真正的“免训练”实例分割。它充分利用了预训练模型学习到的通用语义知识,通过特征匹配的方式,将参考图像的分割信息迁移到目标图像上。这种方法不仅降低了标注成本,也提高了模型的泛化能力。

关键设计:在记忆库构建阶段,论文可能使用了某种特征提取器(例如,CLIP的图像编码器)来提取参考图像的视觉特征。在表征聚合阶段,可能使用了注意力机制或类似的策略,来融合记忆库中的信息。在语义感知的特征匹配阶段,可能使用了余弦相似度或欧氏距离等度量方式,来计算特征之间的相似度。具体的损失函数和网络结构细节未知,需要查阅论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在COCO FSOD数据集上取得了36.8%的nAP,在PASCAL VOC Few-Shot数据集上取得了71.2%的nAP50,均达到了当前最佳性能。此外,在Cross-Domain FSOD基准测试中,该方法优于现有的免训练方法,取得了22.4%的nAP,证明了其在跨领域分割任务中的有效性。

🎯 应用场景

该研究成果可广泛应用于图像编辑、目标检测、视频分析等领域。例如,在医疗影像分析中,可以利用少量标注的参考图像,对新的医学图像进行病灶分割。在自动驾驶领域,可以利用参考图像快速分割道路场景中的车辆、行人等目标。该方法具有很高的实际应用价值,有望推动计算机视觉技术的发展。

📄 摘要(原文)

The performance of image segmentation models has historically been constrained by the high cost of collecting large-scale annotated data. The Segment Anything Model (SAM) alleviates this original problem through a promptable, semantics-agnostic, segmentation paradigm and yet still requires manual visual-prompts or complex domain-dependent prompt-generation rules to process a new image. Towards reducing this new burden, our work investigates the task of object segmentation when provided with, alternatively, only a small set of reference images. Our key insight is to leverage strong semantic priors, as learned by foundation models, to identify corresponding regions between a reference and a target image. We find that correspondences enable automatic generation of instance-level segmentation masks for downstream tasks and instantiate our ideas via a multi-stage, training-free method incorporating (1) memory bank construction; (2) representation aggregation and (3) semantic-aware feature matching. Our experiments show significant improvements on segmentation metrics, leading to state-of-the-art performance on COCO FSOD (36.8% nAP), PASCAL VOC Few-Shot (71.2% nAP50) and outperforming existing training-free approaches on the Cross-Domain FSOD benchmark (22.4% nAP).