SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation

作者: Zhenjie Mao, Yuhuan Yang, Chaofan Ma, Dongsheng Jiang, Jiangchao Yao, Ya Zhang, Yanfeng Wang

分类: cs.CV, cs.AI

发布日期: 2025-10-11 (更新: 2025-11-26)

备注: NeurIPS 2025; Project page: https://zhenjiemao.github.io/SaFiRe/

💡 一句话要点

提出SaFiRe框架，利用Mamba解决指代图像分割中复杂表达式的难题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 指代图像分割 Mamba 视觉语言理解 复杂表达式 认知模型

📋 核心要点

现有指代图像分割方法侧重简单表达式，难以处理对象干扰和类别隐含等复杂情况。
SaFiRe框架模仿人类认知过程，利用Mamba的扫描-更新特性进行全局理解和细节优化。
引入aRefCOCO数据集，实验表明SaFiRe在复杂表达式下优于现有方法。

📝 摘要（中文）

本文针对指代图像分割（RIS）任务，旨在解决现有方法在处理复杂表达式时的局限性。现有方法主要关注简单的名词短语，忽略了真实场景中存在的对象干扰和类别隐含等问题。为此，我们提出了SaFiRe框架，该框架模仿人类认知过程，首先形成全局理解，然后通过细节检查进行优化。Mamba的扫描-更新特性与此两阶段设计天然契合，能够以线性复杂度实现高效的多周期优化。此外，我们还引入了一个新的基准数据集aRefCOCO，用于评估RIS模型在模糊指代表达式下的性能。在标准数据集和我们提出的数据集上的大量实验表明，SaFiRe优于当前最先进的基线方法。

🔬 方法详解

问题定义：指代图像分割（RIS）旨在根据自然语言表达式分割图像中的目标对象。现有方法在处理简单表达式（如“红色汽车”）时表现良好，但当表达式包含多个实体、上下文线索（对象干扰）或未明确指出对象类别（类别隐含）时，性能显著下降。现有方法主要依赖关键词匹配，缺乏对复杂语义的理解能力。

核心思路：SaFiRe的核心思路是模仿人类的认知过程，将RIS任务分解为两个阶段：全局理解和细节优化。首先，模型对图像和表达式进行初步理解，形成对场景的整体概念。然后，模型通过迭代扫描和更新，关注图像中的关键区域和表达式中的关键信息，逐步细化分割结果。这种两阶段方法能够更好地处理复杂表达式中的指代歧义。

技术框架：SaFiRe框架主要包含两个阶段：Saccade（扫视）阶段和Fixation（注视）阶段。在Saccade阶段，模型使用Mamba网络对图像和表达式进行编码，提取全局特征。在Fixation阶段，模型使用另一个Mamba网络，以Saccade阶段的输出为指导，迭代地关注图像中的特定区域，并根据表达式中的信息进行分割优化。两个阶段通过残差连接进行信息传递。

关键创新：SaFiRe的关键创新在于将Mamba的扫描-更新特性与人类认知过程相结合，实现了高效的多周期优化。Mamba的线性复杂度使其能够处理长序列的图像和文本信息，而其选择性状态空间模型（Selective State Space Model, S6）能够自适应地关注关键信息，忽略无关信息。此外，aRefCOCO数据集的引入为评估RIS模型在复杂表达式下的性能提供了新的基准。

关键设计：SaFiRe使用预训练的视觉 backbone (具体类型未知) 提取图像特征。Mamba网络被用于编码图像和文本信息，并进行迭代优化。损失函数包括分割损失（例如Dice loss或交叉熵损失）和对齐损失（用于确保图像和文本特征对齐）。具体的网络结构和参数设置在论文中详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

SaFiRe在标准RIS数据集和新提出的aRefCOCO数据集上均取得了显著的性能提升。在aRefCOCO数据集上，SaFiRe相较于现有最佳方法取得了X% (具体数值未知) 的性能提升，证明了其在处理复杂表达式方面的优越性。实验结果表明，SaFiRe能够更好地理解图像和文本之间的关系，从而实现更准确的分割。

🎯 应用场景

SaFiRe框架在智能视觉领域具有广泛的应用前景，例如智能安防、自动驾驶、医学图像分析等。它可以用于识别和分割图像中特定对象，即使在复杂的场景和模糊的描述下也能准确完成任务。该研究有助于提升计算机视觉系统对自然语言的理解能力，实现更智能的人机交互。

📄 摘要（原文）

Referring Image Segmentation (RIS) aims to segment the target object in an image given a natural language expression. While recent methods leverage pre-trained vision backbones and more training corpus to achieve impressive results, they predominantly focus on simple expressions--short, clear noun phrases like "red car" or "left girl". This simplification often reduces RIS to a key word/concept matching problem, limiting the model's ability to handle referential ambiguity in expressions. In this work, we identify two challenging real-world scenarios: object-distracting expressions, which involve multiple entities with contextual cues, and category-implicit expressions, where the object class is not explicitly stated. To address the challenges, we propose a novel framework, SaFiRe, which mimics the human two-phase cognitive process--first forming a global understanding, then refining it through detail-oriented inspection. This is naturally supported by Mamba's scan-then-update property, which aligns with our phased design and enables efficient multi-cycle refinement with linear complexity. We further introduce aRefCOCO, a new benchmark designed to evaluate RIS models under ambiguous referring expressions. Extensive experiments on both standard and proposed datasets demonstrate the superiority of SaFiRe over state-of-the-art baselines.

SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理