APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation
作者: Weizhao He, Yang Zhang, Wei Zhuo, Linlin Shen, Jiaqi Yang, Songhe Deng, Liang Sun
分类: cs.CV
发布日期: 2024-06-12 (更新: 2024-06-13)
备注: 15 pages, 9 figures
💡 一句话要点
APSeg:用于跨域少样本语义分割的自动提示网络
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 少样本学习 语义分割 跨域学习 自动提示 领域泛化
📋 核心要点
- 现有少样本语义分割方法在跨域场景下性能显著下降,因为它们通常假设训练和应用场景具有相似的领域。
- APSeg通过双原型锚点变换(DPAT)和元提示生成器(MPG)模块,实现跨域少样本语义分割的自动提示。
- 实验结果表明,APSeg在跨域数据集上显著优于现有方法,在1-shot和5-shot设置下分别提升了5.24%和3.10%。
📝 摘要(中文)
本文提出APSeg,一种用于跨域少样本语义分割(CD-FSS)的自动提示网络,旨在利用先进的基础模型Segment Anything Model(SAM)来增强泛化能力。针对SAM在与其训练数据不同的领域表现不佳,且不支持特定语义自动分割的问题,APSeg通过双原型锚点变换(DPAT)模块融合基于循环一致性提取的伪查询原型与支持原型,将特征转换到更稳定的领域无关空间。此外,引入元提示生成器(MPG)模块自动生成提示嵌入,无需手动视觉提示。该模型无需微调即可直接应用于目标域。在四个跨域数据集上的实验表明,APSeg在1-shot和5-shot设置下的平均准确率分别优于现有CD-FSS方法5.24%和3.10%。
🔬 方法详解
问题定义:现有的少样本语义分割(FSS)方法在训练和测试数据来自同一或相似领域时表现良好。然而,当应用到与训练数据领域差异较大的新领域时,性能会显著下降。这是因为模型学习到的特征和决策边界对特定领域的数据分布过于敏感,缺乏泛化能力。此外,直接使用SAM进行跨域少样本分割时,需要人工提示,且效果不佳。
核心思路:APSeg的核心思路是利用Segment Anything Model (SAM) 的强大分割能力,并通过自动提示机制来克服其在跨域场景下的局限性。通过学习一个领域无关的特征空间,使得模型能够更好地泛化到新的领域。同时,通过自动生成提示,避免了人工干预,提高了模型的易用性和效率。
技术框架:APSeg主要包含两个核心模块:双原型锚点变换(DPAT)模块和元提示生成器(MPG)模块。首先,DPAT模块通过融合支持集原型和基于循环一致性生成的伪查询集原型,将特征映射到一个领域无关的空间。然后,MPG模块自动生成提示嵌入,用于指导SAM进行分割。整个流程无需对SAM进行微调,可以直接应用于目标领域。
关键创新:APSeg的关键创新在于DPAT模块和MPG模块的结合。DPAT模块通过循环一致性学习领域不变的特征表示,而MPG模块则实现了自动提示,无需人工干预。这种自动提示机制使得模型能够更好地适应不同的领域,提高了模型的泛化能力。
关键设计:DPAT模块的关键在于循环一致性损失的设计,用于约束伪查询集原型的生成,使其与支持集原型在领域无关的空间中对齐。MPG模块则采用一个元学习框架,学习如何根据输入图像自动生成有效的提示嵌入。具体的网络结构和参数设置在论文中有详细描述,损失函数包括循环一致性损失和分割损失。
🖼️ 关键图片
📊 实验亮点
APSeg在四个跨域数据集上进行了广泛的实验,结果表明,APSeg在1-shot和5-shot设置下的平均准确率分别优于现有CD-FSS方法5.24%和3.10%。尤其是在领域差异较大的数据集上,APSeg的性能提升更为显著,证明了其在跨域少样本语义分割方面的有效性。
🎯 应用场景
APSeg在医学图像分析、遥感图像处理、自动驾驶等领域具有广泛的应用前景。例如,在医学图像分析中,可以利用APSeg对不同医院、不同扫描仪获取的图像进行分割,辅助医生进行诊断。在遥感图像处理中,可以用于对不同地区、不同季节的图像进行分割,提取地物信息。在自动驾驶领域,可以用于对不同场景、不同光照条件下的图像进行分割,提高车辆的感知能力。
📄 摘要(原文)
Few-shot semantic segmentation (FSS) endeavors to segment unseen classes with only a few labeled samples. Current FSS methods are commonly built on the assumption that their training and application scenarios share similar domains, and their performances degrade significantly while applied to a distinct domain. To this end, we propose to leverage the cutting-edge foundation model, the Segment Anything Model (SAM), for generalization enhancement. The SAM however performs unsatisfactorily on domains that are distinct from its training data, which primarily comprise natural scene images, and it does not support automatic segmentation of specific semantics due to its interactive prompting mechanism. In our work, we introduce APSeg, a novel auto-prompt network for cross-domain few-shot semantic segmentation (CD-FSS), which is designed to be auto-prompted for guiding cross-domain segmentation. Specifically, we propose a Dual Prototype Anchor Transformation (DPAT) module that fuses pseudo query prototypes extracted based on cycle-consistency with support prototypes, allowing features to be transformed into a more stable domain-agnostic space. Additionally, a Meta Prompt Generator (MPG) module is introduced to automatically generate prompt embeddings, eliminating the need for manual visual prompts. We build an efficient model which can be applied directly to target domains without fine-tuning. Extensive experiments on four cross-domain datasets show that our model outperforms the state-of-the-art CD-FSS method by 5.24% and 3.10% in average accuracy on 1-shot and 5-shot settings, respectively.