Semantic-Fast-SAM: Efficient Semantic Segmenter

📄 arXiv: 2604.20169v1 📥 PDF

作者: Byunghyun Kim

分类: cs.CV

发布日期: 2026-04-22

备注: APSIPA ASC 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出Semantic-Fast-SAM,结合FastSAM与语义标注流水线,实现实时高精度语义分割。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 语义分割 实时性 FastSAM CLIP 开放词汇分割 机器人 深度学习

📋 核心要点

  1. 现有SAM模型计算量大,难以满足实时性要求,限制了其在机器人等场景的应用。
  2. SFS结合FastSAM的快速mask生成能力和SSA的语义标注策略,在保证精度的前提下显著提升分割速度。
  3. 实验表明,SFS在Cityscapes和ADE20K上达到与SAM相当的精度,推理速度提升约20倍,并能有效处理开放词汇分割。

📝 摘要(中文)

本文提出Semantic-Fast-SAM (SFS),一个语义分割框架,它结合了Fast Segment Anything模型与语义标注流水线,以实现实时性能,同时不牺牲精度。FastSAM是基于CNN的高效SAM模型重实现,比原始基于Transformer的SAM运行速度快得多。在FastSAM快速生成mask的基础上,我们集成了一种Semantic-Segment-Anything (SSA)标注策略,为每个mask分配有意义的类别。由此产生的SFS模型以远低于原始基于SAM的方法的计算成本和内存占用,生成高质量的语义分割图。在Cityscapes和ADE20K基准测试上的实验表明,SFS在闭集设置中匹配了先前基于SAM的方法的精度(在Cityscapes上mIoU约为70.33,在ADE20K上约为48.01),同时实现了比SSA快约20倍的推理速度。我们还表明,SFS通过利用基于CLIP的语义头有效地处理了开放词汇分割,在广泛的类别标注上优于最近的开放词汇模型。这项工作实现了具有“分割一切”能力的实用实时语义分割,扩大了基础分割模型在机器人场景中的适用性。该实现可在https://github.com/KBH00/Semantic-Fast-SAM上找到。

🔬 方法详解

问题定义:论文旨在解决语义分割任务中,现有基于SAM的模型计算复杂度高、推理速度慢的问题。这些模型虽然具有强大的分割能力,但难以满足实时性要求,限制了其在机器人等需要快速响应的场景中的应用。

核心思路:论文的核心思路是利用FastSAM的高效mask生成能力,并结合Semantic-Segment-Anything (SSA)的语义标注策略,构建一个既能快速生成分割mask,又能准确进行语义标注的框架。通过这种方式,在保证分割精度的前提下,显著提升推理速度。

技术框架:SFS框架主要包含两个阶段:首先,利用FastSAM快速生成图像的分割mask;然后,使用Semantic-Segment-Anything (SSA)策略,为每个mask分配语义类别。对于开放词汇分割,SFS采用基于CLIP的语义头,以实现对更广泛类别的标注。

关键创新:SFS的关键创新在于将FastSAM的高效mask生成能力与SSA的语义标注策略相结合,实现了实时且高精度的语义分割。此外,SFS还通过引入基于CLIP的语义头,扩展了模型的开放词汇分割能力。

关键设计:论文中没有明确提及关键的参数设置、损失函数、网络结构等技术细节,但可以推断,FastSAM的参数设置和网络结构对其性能至关重要。此外,CLIP语义头的选择和训练方式也会影响开放词汇分割的效果。具体细节需要参考FastSAM和CLIP的相关论文。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Semantic-Fast-SAM在Cityscapes数据集上取得了70.33%的mIoU,在ADE20K数据集上取得了48.01%的mIoU,与之前的SAM-based方法精度相当。更重要的是,SFS的推理速度比SSA快约20倍,显著提升了分割效率。此外,SFS在开放词汇分割任务上也表现出色,优于其他开放词汇模型。

🎯 应用场景

Semantic-Fast-SAM在机器人、自动驾驶、视频监控等领域具有广泛的应用前景。它可以用于实时场景理解、目标跟踪、环境建模等任务。该研究的实际价值在于降低了语义分割的计算成本,使得高性能的分割模型能够在资源受限的设备上运行,从而推动了人工智能技术在实际场景中的应用。

📄 摘要(原文)

We propose Semantic-Fast-SAM (SFS), a semantic segmentation framework that combines the Fast Segment Anything model with a semantic labeling pipeline to achieve real-time performance without sacrificing accuracy. FastSAM is an efficient CNN-based re-implementation of the Segment Anything Model (SAM) that runs much faster than the original transformer-based SAM. Building upon FastSAM's rapid mask generation, we integrate a Semantic-Segment-Anything (SSA) labeling strategy to assign meaningful categories to each mask. The resulting SFS model produces high-quality semantic segmentation maps at a fraction of the computational cost and memory footprint of the original SAM-based approach. Experiments on Cityscapes and ADE20K benchmarks demonstrate that SFS matches the accuracy of prior SAM-based methods (mIoU ~ 70.33 on Cityscapes and 48.01 on ADE20K) while achieving approximately 20x faster inference than SSA in the closed-set setting. We also show that SFS effectively handles open-vocabulary segmentation by leveraging CLIP-based semantic heads, outperforming recent open-vocabulary models on broad class labeling. This work enables practical real-time semantic segmentation with the "segment-anything" capability, broadening the applicability of foundation segmentation models in robotics scenarios. The implementation is available at https://github.com/KBH00/Semantic-Fast-SAM.