Towards Motion-aware Referring Image Segmentation

📄 arXiv: 2603.17413v1 📥 PDF

作者: Chaeyun Kim, Seunghoon Yi, Yejin Kim, Yohan Jo, Joonseok Lee

分类: cs.CV

发布日期: 2026-03-18

备注: Accepted at AISTATS 2026. * Equal contribution

🔗 代码/项目: GITHUB


💡 一句话要点

提出运动感知指代图像分割方法,解决现有方法在运动相关查询上的性能瓶颈。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代图像分割 运动感知 多模态学习 对比学习 数据增强

📋 核心要点

  1. 现有指代图像分割方法在处理运动相关查询时性能显著下降,无法有效理解和分割运动对象。
  2. 提出多模态径向对比学习(MRaCL)和数据增强方案,增强模型对运动信息的理解和表达能力。
  3. 引入新的运动中心查询测试集和M-Bench基准,实验证明该方法在运动相关查询上性能显著提升。

📝 摘要(中文)

指代图像分割(RIS)需要根据文本描述从图像中识别对象。我们观察到,与基于外观的查询相比,现有方法在运动相关查询上的表现明显不佳。为了解决这个问题,我们首先引入了一种高效的数据增强方案,该方案从原始标题中提取以运动为中心的短语,使模型能够接触到更多的运动表达,而无需额外的注释。其次,由于同一个对象可以根据上下文进行不同的描述,我们提出了一种多模态径向对比学习(MRaCL),它在融合的图像-文本嵌入上执行,而不是在单模态表示上执行。为了进行全面的评估,我们引入了一个新的测试集,专注于以运动为中心的查询,并引入了一个名为M-Bench的新基准,其中对象主要通过动作来区分。大量的实验表明,我们的方法显著提高了多个RIS模型在运动相关查询上的性能,同时保持了在基于外观的描述上的竞争性结果。代码可在https://github.com/snuviplab/MRaCL 获取。

🔬 方法详解

问题定义:指代图像分割任务旨在根据给定的文本描述,分割图像中对应的目标对象。现有方法在处理基于外观描述的查询时表现良好,但在处理运动相关的查询时,性能显著下降。这是因为现有模型对运动信息的建模能力不足,无法准确理解和分割运动中的物体。

核心思路:论文的核心思路是通过数据增强和多模态对比学习,增强模型对运动信息的感知和理解能力。数据增强旨在生成更多包含运动信息的训练样本,而多模态对比学习则旨在学习图像和文本之间更鲁棒的关联,特别是对于运动相关的描述。

技术框架:整体框架包括数据增强模块和多模态径向对比学习模块。数据增强模块从原始标题中提取运动相关的短语,并将其添加到训练数据中。多模态径向对比学习模块首先将图像和文本编码为嵌入向量,然后计算它们之间的径向对比损失,以鼓励模型学习更具区分性的表示。

关键创新:论文的关键创新在于提出了多模态径向对比学习(MRaCL),它在融合的图像-文本嵌入上执行对比学习,而不是在单模态表示上执行。这种方法能够更好地捕捉图像和文本之间的交互信息,从而提高模型对运动相关查询的理解能力。此外,论文还提出了一个高效的数据增强方案,用于生成更多包含运动信息的训练样本。

关键设计:数据增强方案通过提取原始标题中的运动相关短语来生成新的训练样本。多模态径向对比学习使用径向对比损失函数,该损失函数鼓励正样本对的嵌入向量更接近,而负样本对的嵌入向量更远离。具体的网络结构和参数设置在论文中有详细描述,包括使用的预训练模型和优化器等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在运动相关的查询上取得了显著的性能提升。在新的运动中心查询测试集和M-Bench基准上,该方法优于现有的指代图像分割方法。具体而言,该方法在多个RIS模型上都取得了性能提升,并且在保持了在基于外观的描述上的竞争性结果。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、人机交互等领域。例如,在智能监控中,可以根据用户的语音指令,快速定位和分割视频中正在进行特定动作的目标对象。在自动驾驶中,可以帮助车辆更好地理解周围环境,例如识别正在过马路的行人或正在行驶的车辆。

📄 摘要(原文)

Referring Image Segmentation (RIS) requires identifying objects from images based on textual descriptions. We observe that existing methods significantly underperform on motion-related queries compared to appearance-based ones. To address this, we first introduce an efficient data augmentation scheme that extracts motion-centric phrases from original captions, exposing models to more motion expressions without additional annotations. Second, since the same object can be described differently depending on the context, we propose Multimodal Radial Contrastive Learning (MRaCL), performed on fused image-text embeddings rather than unimodal representations. For comprehensive evaluation, we introduce a new test split focusing on motion-centric queries, and introduce a new benchmark called M-Bench, where objects are distinguished primarily by actions. Extensive experiments show our method substantially improves performance on motion-centric queries across multiple RIS models, maintaining competitive results on appearance-based descriptions. Codes are available at https://github.com/snuviplab/MRaCL