Unlocking the Power of SAM 2 for Few-Shot Segmentation
作者: Qianxiong Xu, Lanyun Zhu, Xuanyi Liu, Guosheng Lin, Cheng Long, Ziyue Li, Rui Zhao
分类: cs.CV
发布日期: 2025-05-20 (更新: 2025-05-21)
备注: This paper is accepted by ICML'25
💡 一句话要点
利用SAM 2的Few-Shot分割方法,解决不同身份前景对象匹配问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Few-Shot分割 SAM 2 伪提示生成 迭代记忆细化 支持校准注意力
📋 核心要点
- Few-Shot分割面临过拟合风险,现有方法难以有效利用预训练模型(如SAM)的类别无关匹配能力。
- 提出伪提示生成器,生成伪查询记忆,解决SAM 2在FSS中前景对象身份不兼容的匹配问题。
- 设计迭代记忆细化和支持校准的记忆注意力,提升前景特征融合,抑制背景特征干扰,显著提升分割精度。
📝 摘要(中文)
Few-Shot分割(FSS)旨在学习少量类别上的类别无关分割,以分割任意类别,但存在过拟合的风险。为了解决这个问题,一些方法利用预训练模型(例如SAM)的知识来简化学习过程。最近,SAM 2通过支持视频分割扩展了SAM,其类别无关的匹配能力对FSS很有用。一个简单的想法是将支持前景(FG)特征编码为记忆,查询FG特征与之匹配并融合。不幸的是,SAM 2视频数据中不同帧的FG对象总是相同的身份,而FSS中的FG对象是不同的身份,即匹配步骤不兼容。因此,我们设计了伪提示生成器来编码伪查询记忆,以兼容的方式与查询特征匹配。然而,记忆永远不可能像真实的记忆那样准确,即它们可能包含不完整的查询FG和一些意想不到的查询背景(BG)特征,导致错误的分割。因此,我们进一步设计了迭代记忆细化,以将更多的查询FG特征融合到记忆中,并设计了支持校准的记忆注意力来抑制记忆中意想不到的查询BG特征。在PASCAL-5$^i$和COCO-20$^i$上进行了大量实验,以验证我们设计的有效性,例如,1-shot mIoU比最佳基线提高了4.2%。
🔬 方法详解
问题定义:Few-Shot分割任务旨在利用少量样本实现对新类别的像素级分割。现有方法直接应用SAM 2进行视频分割时,由于SAM 2训练数据中视频帧间前景对象身份一致,而FSS任务中前景对象身份不同,导致匹配过程失效,分割精度下降。
核心思路:核心在于解决SAM 2在FSS任务中前景对象身份不一致导致的匹配问题。通过生成伪查询记忆,模拟FSS任务中不同身份前景对象的匹配过程,从而使SAM 2能够更好地适应FSS任务。同时,通过迭代细化和注意力机制,提高记忆的准确性,减少背景干扰。
技术框架:整体框架包含三个主要模块:伪提示生成器、迭代记忆细化和支持校准的记忆注意力。首先,伪提示生成器生成伪查询记忆,用于与查询特征进行匹配。然后,迭代记忆细化模块逐步将更多的查询前景特征融合到记忆中,提高记忆的完整性和准确性。最后,支持校准的记忆注意力模块抑制记忆中不期望的背景特征,减少分割误差。
关键创新:关键创新在于伪提示生成器的设计,它解决了SAM 2在FSS任务中前景对象身份不一致的问题,使得SAM 2能够更好地应用于FSS任务。此外,迭代记忆细化和支持校准的记忆注意力进一步提高了分割精度。
关键设计:伪提示生成器通过随机采样查询特征生成伪查询记忆。迭代记忆细化模块采用多层卷积神经网络,逐步融合查询前景特征。支持校准的记忆注意力模块利用支持集特征对记忆进行校准,抑制背景特征。损失函数采用交叉熵损失函数,优化分割结果。
🖼️ 关键图片
📊 实验亮点
在PASCAL-5$^i$和COCO-20$^i$数据集上的实验结果表明,该方法显著优于现有基线方法。例如,在1-shot设置下,mIoU指标比最佳基线提高了4.2%,验证了所提出方法的有效性。
🎯 应用场景
该研究成果可应用于医学图像分析、遥感图像解译、自动驾驶等领域,实现对新类别目标的快速分割。例如,在医学图像分析中,可以利用少量病灶样本实现对新类型病灶的精准分割,辅助医生进行诊断和治疗。
📄 摘要(原文)
Few-Shot Segmentation (FSS) aims to learn class-agnostic segmentation on few classes to segment arbitrary classes, but at the risk of overfitting. To address this, some methods use the well-learned knowledge of foundation models (e.g., SAM) to simplify the learning process. Recently, SAM 2 has extended SAM by supporting video segmentation, whose class-agnostic matching ability is useful to FSS. A simple idea is to encode support foreground (FG) features as memory, with which query FG features are matched and fused. Unfortunately, the FG objects in different frames of SAM 2's video data are always the same identity, while those in FSS are different identities, i.e., the matching step is incompatible. Therefore, we design Pseudo Prompt Generator to encode pseudo query memory, matching with query features in a compatible way. However, the memories can never be as accurate as the real ones, i.e., they are likely to contain incomplete query FG, and some unexpected query background (BG) features, leading to wrong segmentation. Hence, we further design Iterative Memory Refinement to fuse more query FG features into the memory, and devise a Support-Calibrated Memory Attention to suppress the unexpected query BG features in memory. Extensive experiments have been conducted on PASCAL-5$^i$ and COCO-20$^i$ to validate the effectiveness of our design, e.g., the 1-shot mIoU can be 4.2% better than the best baseline.