INSID3: Training-Free In-Context Segmentation with DINOv3

📄 arXiv: 2603.28480v1 📥 PDF

作者: Claudia Cuttano, Gabriele Trivigno, Christoph Reich, Daniel Cremers, Carlo Masone, Stefan Roth

分类: cs.CV

发布日期: 2026-03-30

备注: CVPR 2026. Project page: https://visinf.github.io/INSID3

🔗 代码/项目: GITHUB


💡 一句话要点

INSID3:利用DINOv3实现免训练的上下文分割,无需任何监督。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文分割 自监督学习 DINOv3 免训练 视觉基础模型

📋 核心要点

  1. 现有上下文分割方法依赖微调或组合多个VFM,前者泛化性差,后者架构复杂且分割粒度固定。
  2. INSID3利用DINOv3的自监督特征,无需训练或额外模型,实现语义匹配和分割。
  3. INSID3在一次性分割任务上超越现有方法7.5% mIoU,参数量减少3倍,且无需任何监督。

📝 摘要(中文)

上下文分割(ICS)旨在给定一个带标注的视觉示例,分割任意概念,例如对象、部件或个性化实例。现有工作依赖于(i)微调视觉基础模型(VFMs),这提高了领域内结果但损害了泛化性,或者(ii)组合多个冻结的VFMs,这保留了泛化性但导致架构复杂性和固定的分割粒度。我们从极简主义的角度重新审视ICS,并提出问题:单个自监督骨干网络是否可以在没有任何监督或辅助模型的情况下支持语义匹配和分割?我们表明,来自DINOv3的缩放密集自监督特征表现出强大的空间结构和语义对应关系。我们引入INSID3,这是一种免训练的方法,仅从冻结的DINOv3特征中分割不同粒度的概念,给定一个上下文示例。INSID3在一次性语义、部件和个性化分割方面取得了最先进的结果,优于之前的工作+7.5% mIoU,同时使用少3倍的参数,并且没有任何掩码或类别级别的监督。

🔬 方法详解

问题定义:上下文分割旨在仅给定一个带标注的示例图像,分割目标图像中与示例图像中相同语义概念的区域。现有方法主要存在两个痛点:一是微调视觉基础模型会导致过拟合,泛化能力下降;二是组合多个冻结的视觉基础模型会增加模型复杂度,且分割粒度受限。

核心思路:INSID3的核心思路是利用DINOv3预训练模型提取的特征具有强大的空间结构和语义信息,可以直接用于上下文分割,而无需任何额外的训练或微调。通过分析DINOv3的特征空间,发现其能够有效捕捉图像中的语义信息,并保持良好的空间一致性。

技术框架:INSID3的整体框架非常简洁。首先,使用DINOv3提取示例图像和目标图像的特征。然后,通过计算示例图像和目标图像特征之间的相似度,得到一个相似度图。最后,利用该相似度图对目标图像进行分割,得到最终的分割结果。整个过程没有训练,完全依赖于DINOv3预训练模型的强大特征表达能力。

关键创新:INSID3最关键的创新在于它证明了大规模自监督学习得到的特征可以直接用于上下文分割,而无需任何额外的监督或微调。这打破了以往上下文分割方法对大量标注数据的依赖,大大降低了模型训练的成本。

关键设计:INSID3的关键设计在于如何有效地利用DINOv3的特征进行相似度计算和分割。具体来说,论文采用了余弦相似度来衡量示例图像和目标图像特征之间的相似性。此外,论文还探索了不同的分割策略,例如阈值分割和聚类分割,以获得更好的分割效果。没有特别复杂的参数设置或损失函数,主要依赖DINOv3的特征质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

INSID3在一次性语义分割、部件分割和个性化分割任务上均取得了显著的性能提升,超越了现有方法7.5% mIoU。更重要的是,INSID3在实现更高性能的同时,参数量减少了3倍,并且不需要任何掩码或类别级别的监督。这些结果表明,INSID3是一种高效且通用的上下文分割方法。

🎯 应用场景

INSID3具有广泛的应用前景,例如图像编辑、目标检测、机器人视觉等。它可以用于快速分割图像中的特定对象或区域,而无需手动标注数据。在医疗影像分析中,可以辅助医生快速定位病灶区域。在自动驾驶领域,可以用于识别道路上的交通标志和行人等。该研究的免训练特性使其易于部署和应用。

📄 摘要(原文)

In-context segmentation (ICS) aims to segment arbitrary concepts, e.g., objects, parts, or personalized instances, given one annotated visual examples. Existing work relies on (i) fine-tuning vision foundation models (VFMs), which improves in-domain results but harms generalization, or (ii) combines multiple frozen VFMs, which preserves generalization but yields architectural complexity and fixed segmentation granularities. We revisit ICS from a minimalist perspective and ask: Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models? We show that scaled-up dense self-supervised features from DINOv3 exhibit strong spatial structure and semantic correspondence. We introduce INSID3, a training-free approach that segments concepts at varying granularities only from frozen DINOv3 features, given an in-context example. INSID3 achieves state-of-the-art results across one-shot semantic, part, and personalized segmentation, outperforming previous work by +7.5 % mIoU, while using 3x fewer parameters and without any mask or category-level supervision. Code is available at https://github.com/visinf/INSID3 .