DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut

📄 arXiv: 2406.02842v4 📥 PDF

作者: Paul Couairon, Mustafa Shukor, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome

分类: cs.CV

发布日期: 2024-06-05 (更新: 2025-10-02)

备注: NeurIPS 2024. Project page at https://diffcut-segmentation.github.io. Code at https://github.com/PaulCouairon/DiffCut


💡 一句话要点

DiffCut:利用扩散模型特征和递归归一化割催化零样本语义分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本分割 语义分割 扩散模型 自注意力 图分割

📋 核心要点

  1. 现有无监督图像分割方法在性能上远落后于监督模型,难以满足实际应用需求。
  2. DiffCut利用扩散UNet编码器的自注意力特征,结合递归归一化割算法,实现高质量零样本分割。
  3. 实验表明,DiffCut显著优于现有零样本分割方法,证明了扩散模型特征的强大语义表达能力。

📝 摘要(中文)

基础模型已成为语言、视觉和多模态任务等各个领域的强大工具。虽然之前的工作已经解决了无监督图像分割问题,但它们与监督模型相比仍有显著差距。本文利用扩散UNet编码器作为基础视觉编码器,并提出DiffCut,一种无监督零样本分割方法,该方法仅利用来自最终自注意力块的输出特征。通过广泛的实验,我们证明了在基于图的分割算法中使用这些扩散特征,显著优于以前最先进的零样本分割方法。具体来说,我们利用递归归一化割算法,该算法可以柔和地调节检测到的对象的粒度,并生成良好定义的分割图,精确地捕获复杂的图像细节。我们的工作突出了扩散UNet编码器中嵌入的非常准确的语义知识,这些知识可以作为下游任务的基础视觉编码器。

🔬 方法详解

问题定义:论文旨在解决零样本语义分割问题,即在没有任何标注数据的情况下,将图像分割成具有语义意义的区域。现有无监督分割方法依赖于手工设计的特征或浅层模型,难以捕捉图像的复杂语义信息,导致分割精度较低。

核心思路:论文的核心思路是利用预训练扩散UNet模型的强大特征提取能力,特别是最终自注意力层的特征,这些特征蕴含了丰富的语义信息。然后,利用递归归一化割算法,将图像分割成具有语义一致性的区域。

技术框架:DiffCut方法主要包含两个阶段:1)特征提取阶段:使用预训练的扩散UNet模型提取图像的特征,特别是最终自注意力层的输出特征。2)分割阶段:构建基于图像特征的图,并使用递归归一化割算法将图分割成多个子图,每个子图对应一个语义区域。递归归一化割算法通过迭代地分割图,逐步细化分割结果,从而获得更精确的分割图。

关键创新:DiffCut的关键创新在于:1)首次将扩散模型的特征应用于零样本语义分割,充分利用了扩散模型强大的语义表达能力。2)采用递归归一化割算法,能够自适应地调节分割粒度,从而获得更精细、更准确的分割结果。

关键设计:在特征提取阶段,论文使用了预训练的扩散UNet模型,并直接使用了最终自注意力层的输出特征,没有进行额外的训练或微调。在分割阶段,论文使用了标准的归一化割算法,并设置了递归分割的停止条件,以控制分割的粒度。具体参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiffCut在零样本语义分割任务上显著优于现有方法。具体来说,DiffCut在多个数据集上取得了state-of-the-art的性能,证明了扩散模型特征在无监督分割任务中的有效性。论文还通过可视化分析,展示了DiffCut能够生成精细且语义一致的分割结果。

🎯 应用场景

DiffCut在无需标注数据的情况下实现高质量图像分割,可广泛应用于医学图像分析、遥感图像解译、自动驾驶等领域。该方法降低了数据标注成本,加速了相关技术的落地应用,并为后续研究提供了新的思路。

📄 摘要(原文)

Foundation models have emerged as powerful tools across various domains including language, vision, and multimodal tasks. While prior works have addressed unsupervised image segmentation, they significantly lag behind supervised models. In this paper, we use a diffusion UNet encoder as a foundation vision encoder and introduce DiffCut, an unsupervised zero-shot segmentation method that solely harnesses the output features from the final self-attention block. Through extensive experimentation, we demonstrate that the utilization of these diffusion features in a graph based segmentation algorithm, significantly outperforms previous state-of-the-art methods on zero-shot segmentation. Specifically, we leverage a recursive Normalized Cut algorithm that softly regulates the granularity of detected objects and produces well-defined segmentation maps that precisely capture intricate image details. Our work highlights the remarkably accurate semantic knowledge embedded within diffusion UNet encoders that could then serve as foundation vision encoders for downstream tasks. Project page at https://diffcut-segmentation.github.io