Finding NeMo: Negative-mined Mosaic Augmentation for Referring Image Segmentation

📄 arXiv: 2411.01494v1 📥 PDF

作者: Seongsu Ha, Chaeyun Kim, Donghwa Kim, Junho Lee, Sangho Lee, Joonseok Lee

分类: cs.CV

发布日期: 2024-11-03

备注: Accepted at ECCV 2024. Project page: https://dddonghwa.github.io/NeMo/


💡 一句话要点

提出负样本挖掘的Mosaic数据增强NeMo,提升指代图像分割在复杂场景下的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代图像分割 数据增强 负样本挖掘 Mosaic增强 多模态对齐

📋 核心要点

  1. 现有指代图像分割模型在处理包含相似对象或复杂指代表达的图像时,性能显著下降,表明模型泛化能力不足。
  2. NeMo方法通过将原始图像与精心挑选的负样本图像拼接成mosaic,增加训练数据的难度,迫使模型学习更细微的视觉差异。
  3. 实验结果表明,NeMo方法在多个数据集和模型上均取得了显著的性能提升,验证了其有效性。

📝 摘要(中文)

指代图像分割(Referring Image Segmentation, RIS)是一项综合任务,旨在从图像中分割出文本查询所指代的对象。该任务的难度受到相似对象存在以及指代表达复杂性的影响。现有的RIS模型在简单和困难场景之间仍然存在显著的性能差距。我们认为瓶颈在于数据,并提出了一种简单而强大的数据增强方法,即负样本挖掘的Mosaic增强(Negative-mined Mosaic Augmentation, NeMo)。该方法将训练图像增强为一个mosaic,其中包含由预训练的多模态对齐模型(例如CLIP)精心挑选的其他三个负样本图像,以使样本更具挑战性。我们发现适当调整难度级别至关重要,既不能过于模糊也不能过于简单。增强的训练数据鼓励RIS模型识别相似视觉实体之间细微的差异和关系,并具体理解整个表达以更好地定位正确的目标。通过广泛的实验验证,我们的方法在各种数据集和模型上都显示出一致的改进。

🔬 方法详解

问题定义:指代图像分割任务旨在根据给定的文本描述,从图像中分割出对应的目标对象。现有方法在处理复杂场景,例如图像中存在多个相似对象,或者文本描述较为模糊时,性能会显著下降。这是因为模型难以区分相似对象,并且对文本描述的理解不够深入。

核心思路:NeMo的核心思路是通过数据增强来提升模型的鲁棒性和泛化能力。具体来说,它通过将原始图像与从数据集中挖掘出的负样本图像拼接成mosaic,从而增加训练数据的难度。这种方式迫使模型学习区分相似对象之间的细微差异,并更准确地理解文本描述的含义。

技术框架:NeMo方法主要包含以下几个步骤:1) 使用预训练的多模态对齐模型(如CLIP)计算图像和文本描述之间的相似度。2) 对于每个原始图像,根据CLIP的相似度得分,从数据集中选择三个最相关的负样本图像。3) 将原始图像和三个负样本图像拼接成一个mosaic图像。4) 使用增强后的mosaic图像训练指代图像分割模型。

关键创新:NeMo的关键创新在于负样本的挖掘和mosaic增强的结合。传统的mosaic增强方法通常随机选择图像进行拼接,而NeMo则利用多模态对齐模型来选择与原始图像语义相关的负样本,从而更有针对性地增加训练难度。这种负样本挖掘策略能够有效地提升模型区分相似对象的能力。

关键设计:NeMo方法中,负样本的选择至关重要。论文使用CLIP模型计算图像和文本描述之间的相似度,并选择相似度最高的三个图像作为负样本。此外,mosaic图像的拼接方式也需要仔细设计,以保证增强后的图像具有一定的视觉一致性。具体的拼接比例和位置等参数需要根据具体的数据集和模型进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NeMo方法在多个指代图像分割数据集上取得了显著的性能提升。例如,在RefCOCOg数据集上,NeMo将模型的IoU指标提升了超过3个百分点,在RefCOCO+数据集上也取得了类似的提升。实验结果表明,NeMo方法能够有效地提升模型在复杂场景下的分割精度,并且具有良好的泛化能力。

🎯 应用场景

NeMo方法可广泛应用于需要精细化图像理解的场景,例如智能安防中的目标追踪、医学影像分析中的病灶定位、以及自动驾驶中的场景理解等。通过提升模型对细微视觉差异的感知能力,可以提高相关应用系统的准确性和可靠性,具有重要的实际应用价值。

📄 摘要(原文)

Referring Image Segmentation is a comprehensive task to segment an object referred by a textual query from an image. In nature, the level of difficulty in this task is affected by the existence of similar objects and the complexity of the referring expression. Recent RIS models still show a significant performance gap between easy and hard scenarios. We pose that the bottleneck exists in the data, and propose a simple but powerful data augmentation method, Negative-mined Mosaic Augmentation (NeMo). This method augments a training image into a mosaic with three other negative images carefully curated by a pretrained multimodal alignment model, e.g., CLIP, to make the sample more challenging. We discover that it is critical to properly adjust the difficulty level, neither too ambiguous nor too trivial. The augmented training data encourages the RIS model to recognize subtle differences and relationships between similar visual entities and to concretely understand the whole expression to locate the right target better. Our approach shows consistent improvements on various datasets and models, verified by extensive experiments.