No time to train! Training-Free Reference-Based Instance Segmentation

作者: Miguel Espinosa, Chenhongyi Yang, Linus Ericsson, Steven McDonagh, Elliot J. Crowley

分类: cs.CV

发布日期: 2025-07-03 (更新: 2025-07-05)

备注: Preprint

💡 一句话要点

提出一种免训练的参考图像实例分割方法，利用语义先验实现高效分割。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 实例分割 免训练学习 小样本学习 语义先验 特征匹配

📋 核心要点

现有图像分割模型依赖大量标注数据，成本高昂，SAM虽然降低了标注需求，但仍需人工或领域特定的提示。
该论文利用基础模型学习的语义先验，通过参考图像与目标图像的对应关系，自动生成实例分割掩码。
实验结果表明，该方法在多个Few-Shot分割数据集上取得了显著提升，达到了当前最佳性能。

📝 摘要（中文）

图像分割模型的性能一直受限于大规模标注数据的昂贵成本。Segment Anything Model (SAM) 通过可提示的、语义无关的分割范式缓解了这个问题，但仍然需要手动视觉提示或复杂的、领域相关的提示生成规则来处理新图像。为了减轻这种新负担，我们的工作研究了仅提供少量参考图像时的对象分割任务。我们的关键见解是利用基础模型学习到的强大语义先验，来识别参考图像和目标图像之间的对应区域。我们发现，对应关系能够自动生成实例级别的分割掩码，用于下游任务。我们通过一个多阶段、免训练的方法来实现我们的想法，该方法包括 (1) 记忆库构建；(2) 表征聚合；(3) 语义感知的特征匹配。实验表明，我们的方法在分割指标上取得了显著的改进，在 COCO FSOD (36.8% nAP)、PASCAL VOC Few-Shot (71.2% nAP50) 上实现了最先进的性能，并在 Cross-Domain FSOD 基准测试中优于现有的免训练方法 (22.4% nAP)。

🔬 方法详解

问题定义：现有实例分割方法通常需要大量标注数据进行训练，或者依赖人工设计的提示。即使是像SAM这样的模型，也需要针对特定任务设计复杂的提示策略。这限制了它们在数据稀缺或领域迁移场景下的应用。因此，该论文旨在解决在仅有少量参考图像的情况下，如何实现高效、准确的实例分割问题。

核心思路：该论文的核心思路是利用预训练模型（foundation models）学习到的强大语义先验知识，来建立参考图像和目标图像之间的对应关系。通过找到两幅图像中语义相似的区域，可以将参考图像中的分割信息迁移到目标图像上，从而实现免训练的实例分割。这种方法避免了对大量标注数据的依赖，也无需人工设计提示。

技术框架：该方法主要包含三个阶段：(1) 记忆库构建：从参考图像中提取特征，并构建一个记忆库，用于存储参考图像的表征。(2) 表征聚合：对目标图像进行特征提取，并利用记忆库中的信息，聚合目标图像的特征，增强其语义表达能力。(3) 语义感知的特征匹配：通过计算目标图像和参考图像特征之间的相似度，建立对应关系，并将参考图像的分割掩码迁移到目标图像上。

关键创新：该方法最重要的创新在于，它完全摆脱了对训练数据的依赖，实现了真正的“免训练”实例分割。它充分利用了预训练模型学习到的通用语义知识，通过特征匹配的方式，将参考图像的分割信息迁移到目标图像上。这种方法不仅降低了标注成本，也提高了模型的泛化能力。

关键设计：在记忆库构建阶段，论文可能使用了某种特征提取器（例如，CLIP的图像编码器）来提取参考图像的视觉特征。在表征聚合阶段，可能使用了注意力机制或类似的策略，来融合记忆库中的信息。在语义感知的特征匹配阶段，可能使用了余弦相似度或欧氏距离等度量方式，来计算特征之间的相似度。具体的损失函数和网络结构细节未知，需要查阅论文原文。

🖼️ 关键图片

📊 实验亮点

该方法在COCO FSOD数据集上取得了36.8%的nAP，在PASCAL VOC Few-Shot数据集上取得了71.2%的nAP50，均达到了当前最佳性能。此外，在Cross-Domain FSOD基准测试中，该方法优于现有的免训练方法，取得了22.4%的nAP，证明了其在跨领域分割任务中的有效性。

🎯 应用场景

该研究成果可广泛应用于图像编辑、目标检测、视频分析等领域。例如，在医疗影像分析中，可以利用少量标注的参考图像，对新的医学图像进行病灶分割。在自动驾驶领域，可以利用参考图像快速分割道路场景中的车辆、行人等目标。该方法具有很高的实际应用价值，有望推动计算机视觉技术的发展。

📄 摘要（原文）

The performance of image segmentation models has historically been constrained by the high cost of collecting large-scale annotated data. The Segment Anything Model (SAM) alleviates this original problem through a promptable, semantics-agnostic, segmentation paradigm and yet still requires manual visual-prompts or complex domain-dependent prompt-generation rules to process a new image. Towards reducing this new burden, our work investigates the task of object segmentation when provided with, alternatively, only a small set of reference images. Our key insight is to leverage strong semantic priors, as learned by foundation models, to identify corresponding regions between a reference and a target image. We find that correspondences enable automatic generation of instance-level segmentation masks for downstream tasks and instantiate our ideas via a multi-stage, training-free method incorporating (1) memory bank construction; (2) representation aggregation and (3) semantic-aware feature matching. Our experiments show significant improvements on segmentation metrics, leading to state-of-the-art performance on COCO FSOD (36.8% nAP), PASCAL VOC Few-Shot (71.2% nAP50) and outperforming existing training-free approaches on the Cross-Domain FSOD benchmark (22.4% nAP).

No time to train! Training-Free Reference-Based Instance Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理