GoodSAM++: Bridging Domain and Capacity Gaps via Segment Anything Model for Panoramic Semantic Segmentation
作者: Weiming Zhang, Yexin Liu, Xu Zheng, Lin Wang
分类: cs.CV
发布日期: 2024-08-17
备注: 15 pages, under review. arXiv admin note: substantial text overlap with arXiv:2403.16370
💡 一句话要点
GoodSAM++:利用SAM弥合领域和容量差距,实现全景语义分割
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 全景语义分割 领域自适应 知识蒸馏 自监督学习 SAM 教师助手 模型压缩
📋 核心要点
- 现有全景语义分割方法依赖大量标注数据,且在领域迁移时性能下降明显,而SAM缺乏语义信息且存在全景图像失真问题。
- GoodSAM++引入教师助手为SAM提供语义信息,并设计失真感知校正模块和多级知识适配模块,弥合领域和容量差距。
- 实验表明,GoodSAM++在多个数据集上显著优于现有领域自适应方法,轻量级学生模型仅用370万参数达到SOTA性能。
📝 摘要(中文)
本文提出了GoodSAM++,一个新颖的框架,它利用SAM(即教师模型)强大的零样本实例分割能力来学习一个紧凑的全景语义分割模型(即学生模型),而无需任何标注数据。GoodSAM++解决了两个关键挑战:1) SAM无法提供语义标签以及全景图像固有的失真问题;2) SAM和学生模型之间显著的容量差距。GoodSAM++的核心思想是引入一个教师助手(TA)来为SAM提供语义信息,并与SAM集成以获得可靠的伪语义图,从而弥合领域和容量差距。为此,我们首先提出了一个失真感知校正(DARv2)模块来解决领域差距,有效缓解全景图像中的物体变形和失真问题,从而获得伪语义图。然后,我们引入了一个多级知识适配(MKA)模块,以有效地将来自TA和伪语义图的语义信息传递到我们紧凑的学生模型,从而解决显著的容量差距。我们在室外和室内基准数据集上进行了广泛的实验,表明我们的GoodSAM++相对于最先进的领域自适应方法取得了显著的性能提升。此外,各种开放世界场景证明了GoodSAM++的泛化能力。最后但并非最不重要的是,我们最轻量级的学生模型仅使用370万个参数就实现了与SOTA模型相当的性能。
🔬 方法详解
问题定义:论文旨在解决全景语义分割中对大量标注数据的依赖以及领域迁移性能下降的问题。现有方法难以有效利用SAM的强大分割能力,因为SAM本身不具备语义理解能力,且全景图像存在固有的几何失真,直接应用会导致性能不佳。此外,SAM模型通常参数量巨大,难以迁移到资源受限的场景中。
核心思路:论文的核心思路是利用SAM的分割能力,通过引入教师助手(Teacher Assistant, TA)来赋予SAM语义理解能力,并设计相应的模块来解决全景图像的失真问题和SAM与学生模型之间的容量差距。通过这种方式,可以生成高质量的伪标签,从而训练一个紧凑且高性能的学生模型。
技术框架:GoodSAM++框架主要包含以下几个模块:1) 失真感知校正模块 (DARv2):用于校正全景图像的几何失真,提高分割精度。2) 教师助手 (TA):提供语义信息,与SAM结合生成伪语义分割标签。3) 多级知识适配模块 (MKA):将TA的语义知识和伪标签信息传递给学生模型,弥合容量差距。整体流程是:首先使用DARv2校正全景图像,然后利用SAM和TA生成伪标签,最后通过MKA将知识迁移到学生模型。
关键创新:论文的关键创新在于:1) 提出了利用教师助手赋予SAM语义理解能力的方法,使其能够生成高质量的伪标签。2) 设计了失真感知校正模块,有效解决了全景图像的几何失真问题。3) 提出了多级知识适配模块,实现了从大型教师模型到紧凑学生模型的有效知识迁移。
关键设计:DARv2模块的具体实现细节未知,但其目标是减少全景图像的失真。TA的具体选择也未知,但需要具备一定的语义分割能力。MKA模块可能包含多层特征提取和对齐操作,以及相应的损失函数来指导知识迁移。学生模型的选择也未知,但目标是选择一个参数量较小的模型。
🖼️ 关键图片
📊 实验亮点
GoodSAM++在多个全景语义分割数据集上取得了显著的性能提升,超越了现有的领域自适应方法。更重要的是,该方法训练出的轻量级学生模型仅使用370万个参数,就达到了与SOTA模型相当的性能,这表明该方法在资源受限的场景中具有很高的实用价值。具体的性能数据和对比基线在论文中进行了详细展示。
🎯 应用场景
GoodSAM++在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用前景。它可以用于构建低成本、高性能的全景语义分割系统,无需大量人工标注数据。该研究有助于推动智能设备在复杂环境中的应用,例如,机器人可以在室内环境中进行自主导航,自动驾驶汽车可以更好地理解周围环境。
📄 摘要(原文)
This paper presents GoodSAM++, a novel framework utilizing the powerful zero-shot instance segmentation capability of SAM (i.e., teacher) to learn a compact panoramic semantic segmentation model, i.e., student, without requiring any labeled data. GoodSAM++ addresses two critical challenges: 1) SAM's inability to provide semantic labels and inherent distortion problems of panoramic images; 2) the significant capacity disparity between SAM and the student. The `out-of-the-box' insight of GoodSAM++ is to introduce a teacher assistant (TA) to provide semantic information for SAM, integrated with SAM to obtain reliable pseudo semantic maps to bridge both domain and capacity gaps. To make this possible, we first propose a Distortion-Aware Rectification (DARv2) module to address the domain gap. It effectively mitigates the object deformation and distortion problem in panoramic images to obtain pseudo semantic maps. We then introduce a Multi-level Knowledge Adaptation (MKA) module to efficiently transfer the semantic information from the TA and pseudo semantic maps to our compact student model, addressing the significant capacity gap. We conduct extensive experiments on both outdoor and indoor benchmark datasets, showing that our GoodSAM++ achieves a remarkable performance improvement over the state-of-the-art (SOTA) domain adaptation methods. Moreover, diverse open-world scenarios demonstrate the generalization capacity of our GoodSAM++. Last but not least, our most lightweight student model achieves comparable performance to the SOTA models with only 3.7 million parameters.