Early Semantic Grounding in Image Editing Models for Zero-Shot Referring Image Segmentation

📄 arXiv: 2605.13122v1 📥 PDF

作者: Jingxuan He, Xiyu Wang, Yunke Wang, Mengyu Zheng, Chang Xu

分类: cs.CV

发布日期: 2026-05-13


💡 一句话要点

利用图像编辑模型早期语义信息,实现零样本指代图像分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代图像分割 零样本学习 图像编辑模型 语义分割 视觉语义定位

📋 核心要点

  1. 现有指代图像分割方法依赖大量标注数据,零样本方法仍具挑战,缺乏有效利用预训练模型的语义信息。
  2. 本文提出一种无需训练的框架,利用图像编辑模型早期去噪步骤的中间表示,提取语义信息进行分割。
  3. 实验表明,该方法在多个数据集上优于现有零样本基线,证明了图像编辑模型中蕴含的语义信息价值。

📝 摘要(中文)

本文研究了基于指令的图像编辑(IIE)模型在零样本指代图像分割(RIS)任务中的应用。IIE模型能够根据自然语言指令修改图像特定区域,这隐式地要求模型具备语言条件下的视觉语义定位能力。研究发现,在模型最早的去噪时间步,内部表示中就出现了很强的前景-背景可分离性,远早于任何可见的图像变换。基于此,本文提出了一种无需训练的框架,通过利用预训练图像编辑模型的中间表示来解决RIS问题。该方法将定位分解为两个互补的组成部分:基于注意力的空间先验(估计关注位置)和基于特征的语义区分(确定分割内容)。通过利用特征空间的可分离性,该框架仅使用单个去噪步骤即可生成准确的分割掩码,而无需完整的图像合成。在RefCOCO、RefCOCO+和RefCOCOg上的大量实验表明,该方法优于现有的零样本基线。

🔬 方法详解

问题定义:指代图像分割(RIS)旨在根据自然语言描述,对图像中的目标对象进行像素级别的分割。现有的RIS方法通常需要大量的标注数据进行训练,而零样本RIS方法面临的挑战是如何有效利用预训练模型中蕴含的语义信息,实现对目标对象的精确定位和分割。

核心思路:本文的核心思路是利用基于指令的图像编辑(IIE)模型在执行图像编辑任务时,会隐式地学习到语言条件下的视觉语义定位能力。研究发现,在IIE模型早期去噪阶段的中间表示中,已经包含了足够区分前景和背景的语义信息。因此,可以通过提取这些中间表示,并结合空间注意力机制,来实现零样本的RIS。

技术框架:该框架主要包含两个模块:注意力模块和特征模块。注意力模块利用IIE模型中间层的注意力图,生成空间先验,用于指导模型关注图像中与语言描述相关的区域。特征模块则利用IIE模型中间层的特征表示,通过计算特征相似度,区分前景和背景像素。最终,将两个模块的结果融合,生成分割掩码。整个过程无需额外的训练。

关键创新:该方法最重要的创新点在于发现了IIE模型在早期去噪阶段就蕴含了丰富的语义信息,并成功地将这些信息用于零样本RIS任务。与现有方法相比,该方法无需训练,且能够有效地利用预训练模型的语义信息,从而提高了分割精度。

关键设计:该方法的关键设计包括:1) 选择合适的IIE模型中间层,以提取包含足够语义信息的特征表示;2) 设计有效的特征相似度计算方法,以区分前景和背景像素;3) 设计合理的融合策略,将注意力模块和特征模块的结果进行融合,生成最终的分割掩码。具体来说,特征相似度计算采用余弦相似度,融合策略采用加权平均。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在RefCOCO、RefCOCO+和RefCOCOg数据集上均取得了优于现有零样本基线的性能。例如,在RefCOCOg数据集上,该方法相比于最佳基线方法,在mIoU指标上提升了超过5个百分点,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于智能图像编辑、人机交互、视觉搜索等领域。例如,用户可以通过自然语言指令精确地分割图像中的目标对象,并进行后续的编辑操作。此外,该方法还可以用于视觉搜索,根据用户输入的文本描述,快速定位图像中的目标对象。未来,该方法有望扩展到视频分割、三维重建等更复杂的任务中。

📄 摘要(原文)

Instruction-based image editing (IIE) models have recently demonstrated strong capability in modifying specific image regions according to natural language instructions, which implicitly requires identifying where an edit should be applied. This indicates that such models inherently perform language-conditioned visual semantic grounding. In this work, we investigate whether this implicit grounding can be leveraged for zero-shot referring image segmentation (RIS), a task that requires pixel-level localization of objects described by natural language expressions. Through systematic analysis, we reveal that strong foreground-background separability emerges in the internal representations of these models at the earliest denoising timestep, well before any visible image transformation occurs. Building on this insight, we propose a training-free framework that repurposes pretrained image editing models for RIS by exploiting their intermediate representations. Our approach decomposes localization into two complementary components: attention-based spatial priors that estimate where to focus, and feature-based semantic discrimination that determines what to segment. By leveraging feature-space separability, the framework produces accurate segmentation masks using only a single denoising step, without requiring full image synthesis. Extensive experiments on RefCOCO, RefCOCO+, and RefCOCOg demonstrate that our method achieves superior performance over existing zero-shot baselines.