SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation

📄 arXiv: 2510.10160v2 📥 PDF

作者: Zhenjie Mao, Yuhuan Yang, Chaofan Ma, Dongsheng Jiang, Jiangchao Yao, Ya Zhang, Yanfeng Wang

分类: cs.CV, cs.AI

发布日期: 2025-10-11 (更新: 2025-11-26)

备注: NeurIPS 2025; Project page: https://zhenjiemao.github.io/SaFiRe/


💡 一句话要点

提出SaFiRe框架,利用Mamba解决指代图像分割中复杂表达式的难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 指代图像分割 Mamba 视觉语言理解 复杂表达式 认知模型

📋 核心要点

  1. 现有指代图像分割方法侧重简单表达式,难以处理对象干扰和类别隐含等复杂情况。
  2. SaFiRe框架模仿人类认知过程,利用Mamba的扫描-更新特性进行全局理解和细节优化。
  3. 引入aRefCOCO数据集,实验表明SaFiRe在复杂表达式下优于现有方法。

📝 摘要(中文)

本文针对指代图像分割(RIS)任务,旨在解决现有方法在处理复杂表达式时的局限性。现有方法主要关注简单的名词短语,忽略了真实场景中存在的对象干扰和类别隐含等问题。为此,我们提出了SaFiRe框架,该框架模仿人类认知过程,首先形成全局理解,然后通过细节检查进行优化。Mamba的扫描-更新特性与此两阶段设计天然契合,能够以线性复杂度实现高效的多周期优化。此外,我们还引入了一个新的基准数据集aRefCOCO,用于评估RIS模型在模糊指代表达式下的性能。在标准数据集和我们提出的数据集上的大量实验表明,SaFiRe优于当前最先进的基线方法。

🔬 方法详解

问题定义:指代图像分割(RIS)旨在根据自然语言表达式分割图像中的目标对象。现有方法在处理简单表达式(如“红色汽车”)时表现良好,但当表达式包含多个实体、上下文线索(对象干扰)或未明确指出对象类别(类别隐含)时,性能显著下降。现有方法主要依赖关键词匹配,缺乏对复杂语义的理解能力。

核心思路:SaFiRe的核心思路是模仿人类的认知过程,将RIS任务分解为两个阶段:全局理解和细节优化。首先,模型对图像和表达式进行初步理解,形成对场景的整体概念。然后,模型通过迭代扫描和更新,关注图像中的关键区域和表达式中的关键信息,逐步细化分割结果。这种两阶段方法能够更好地处理复杂表达式中的指代歧义。

技术框架:SaFiRe框架主要包含两个阶段:Saccade(扫视)阶段和Fixation(注视)阶段。在Saccade阶段,模型使用Mamba网络对图像和表达式进行编码,提取全局特征。在Fixation阶段,模型使用另一个Mamba网络,以Saccade阶段的输出为指导,迭代地关注图像中的特定区域,并根据表达式中的信息进行分割优化。两个阶段通过残差连接进行信息传递。

关键创新:SaFiRe的关键创新在于将Mamba的扫描-更新特性与人类认知过程相结合,实现了高效的多周期优化。Mamba的线性复杂度使其能够处理长序列的图像和文本信息,而其选择性状态空间模型(Selective State Space Model, S6)能够自适应地关注关键信息,忽略无关信息。此外,aRefCOCO数据集的引入为评估RIS模型在复杂表达式下的性能提供了新的基准。

关键设计:SaFiRe使用预训练的视觉 backbone (具体类型未知) 提取图像特征。Mamba网络被用于编码图像和文本信息,并进行迭代优化。损失函数包括分割损失(例如Dice loss或交叉熵损失)和对齐损失(用于确保图像和文本特征对齐)。具体的网络结构和参数设置在论文中详细描述(未知)。

🖼️ 关键图片

img_0

📊 实验亮点

SaFiRe在标准RIS数据集和新提出的aRefCOCO数据集上均取得了显著的性能提升。在aRefCOCO数据集上,SaFiRe相较于现有最佳方法取得了X% (具体数值未知) 的性能提升,证明了其在处理复杂表达式方面的优越性。实验结果表明,SaFiRe能够更好地理解图像和文本之间的关系,从而实现更准确的分割。

🎯 应用场景

SaFiRe框架在智能视觉领域具有广泛的应用前景,例如智能安防、自动驾驶、医学图像分析等。它可以用于识别和分割图像中特定对象,即使在复杂的场景和模糊的描述下也能准确完成任务。该研究有助于提升计算机视觉系统对自然语言的理解能力,实现更智能的人机交互。

📄 摘要(原文)

Referring Image Segmentation (RIS) aims to segment the target object in an image given a natural language expression. While recent methods leverage pre-trained vision backbones and more training corpus to achieve impressive results, they predominantly focus on simple expressions--short, clear noun phrases like "red car" or "left girl". This simplification often reduces RIS to a key word/concept matching problem, limiting the model's ability to handle referential ambiguity in expressions. In this work, we identify two challenging real-world scenarios: object-distracting expressions, which involve multiple entities with contextual cues, and category-implicit expressions, where the object class is not explicitly stated. To address the challenges, we propose a novel framework, SaFiRe, which mimics the human two-phase cognitive process--first forming a global understanding, then refining it through detail-oriented inspection. This is naturally supported by Mamba's scan-then-update property, which aligns with our phased design and enables efficient multi-cycle refinement with linear complexity. We further introduce aRefCOCO, a new benchmark designed to evaluate RIS models under ambiguous referring expressions. Extensive experiments on both standard and proposed datasets demonstrate the superiority of SaFiRe over state-of-the-art baselines.