EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model
作者: Yuxuan Zhang, Tianheng Cheng, Lianghui Zhu, Rui Hu, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
分类: cs.CV
发布日期: 2024-06-28 (更新: 2025-03-10)
备注: Preprint. Update: (1) better performance and (2) versatile segmentation. Code and models are available at: https://github.com/hustvl/EVF-SAM
💡 一句话要点
提出EVF-SAM,通过早期视觉-语言融合提升文本提示SAM的分割性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指代表达式分割 Segment Anything Model 视觉-语言融合 多模态学习 早期融合
📋 核心要点
- 现有SAM模型在视觉提示交互式分割上表现出色,但对文本提示的探索不足,限制了其在指代表达式分割任务中的应用。
- EVF-SAM利用早期视觉-语言融合,通过多模态提示(图像和文本)驱动SAM进行分割,提升了指代表达式分割的准确性。
- 实验表明,基于BEIT-3的EVF-SAM在RefCOCO/+/g数据集上取得了SOTA性能,并且参数量相比之前的SAM方法减少了82%。
📝 摘要(中文)
本文针对Segment Anything Model (SAM) 在文本提示下的探索不足,提出了一种基于早期视觉-语言融合的SAM (EVF-SAM)。EVF-SAM 是一种简单而有效的指代表达式分割方法,它利用多模态提示(即图像和文本),并包含一个预训练的视觉-语言模型来生成指代提示,以及一个 SAM 模型进行分割。研究发现,多模态提示和具有早期融合的视觉-语言模型(例如 BEIT-3)有利于提示 SAM 进行准确的指代表达式分割。实验表明,基于 BEIT-3 的 EVF-SAM 在 RefCOCO/+/g 上获得了最先进的指代表达式分割性能,并证明了使用早期视觉-语言融合提示 SAM 的优越性。此外,所提出的具有 1.32B 参数的 EVF-SAM 实现了显着更高的性能,同时与之前基于大型多模态模型的 SAM 方法相比,减少了近 82% 的参数。
🔬 方法详解
问题定义:论文旨在解决指代表达式分割问题,即根据给定的文本描述,在图像中分割出对应的目标区域。现有方法或者直接使用SAM的视觉提示能力,忽略了文本信息;或者使用大型多模态模型,参数量巨大,计算成本高昂。
核心思路:论文的核心思路是利用早期视觉-语言融合,将图像和文本信息在早期阶段进行有效融合,生成更具判别性的多模态提示,从而更好地引导SAM进行分割。这种早期融合的方式能够充分利用两种模态的信息,提升分割精度。
技术框架:EVF-SAM主要包含两个模块:一个预训练的视觉-语言模型(例如BEIT-3)和一个SAM模型。首先,视觉-语言模型接收图像和文本作为输入,进行早期融合,生成多模态提示。然后,将生成的多模态提示输入到SAM模型中,SAM模型根据提示进行分割,输出分割结果。
关键创新:论文的关键创新在于提出了基于早期视觉-语言融合的多模态提示方法,并将其应用于SAM模型。与直接使用视觉提示或晚期融合的方法相比,早期融合能够更有效地利用文本信息,提升分割精度。此外,EVF-SAM在保证性能的同时,显著减少了参数量。
关键设计:论文选择BEIT-3作为视觉-语言模型,因为它具有强大的多模态表示能力和早期融合机制。具体来说,BEIT-3将图像和文本编码为统一的特征向量,并通过自注意力机制进行融合。损失函数方面,论文可能采用了标准的分割损失函数,例如交叉熵损失或Dice损失,以优化分割结果。
🖼️ 关键图片
📊 实验亮点
EVF-SAM在RefCOCO、RefCOCO+和RefCOCOg数据集上取得了state-of-the-art的性能。例如,在RefCOCO数据集上,EVF-SAM的性能超过了之前的最佳方法,并且参数量减少了82%。这表明EVF-SAM在指代表达式分割任务中具有显著的优势。
🎯 应用场景
EVF-SAM具有广泛的应用前景,例如智能图像编辑、机器人视觉、自动驾驶等领域。它可以用于根据用户的文本指令,精确地分割图像中的目标物体,从而实现更智能的人机交互和更高效的图像处理。此外,该方法还可以应用于医学图像分析,辅助医生进行病灶检测和分割。
📄 摘要(原文)
Segment Anything Model (SAM) has attracted widespread attention for its superior interactive segmentation capabilities with visual prompts while lacking further exploration of text prompts. In this paper, we empirically investigate what text prompt encoders (e.g., CLIP or LLM) are good for adapting SAM for referring expression segmentation and introduce the Early Vision-language Fusion-based SAM (EVF-SAM). EVF-SAM is a simple yet effective referring segmentation method which exploits multimodal prompts (i.e., image and text) and comprises a pre-trained vision-language model to generate referring prompts and a SAM model for segmentation. Surprisingly, we observe that: (1) multimodal prompts and (2) vision-language models with early fusion (e.g., BEIT-3) are beneficial for prompting SAM for accurate referring segmentation. Our experiments show that the proposed EVF-SAM based on BEIT-3 can obtain state-of-the-art performance on RefCOCO/+/g for referring expression segmentation and demonstrate the superiority of prompting SAM with early vision-language fusion. In addition, the proposed EVF-SAM with 1.32B parameters achieves remarkably higher performance while reducing nearly 82% of parameters compared to previous SAM methods based on large multimodal models.