Promoting Segment Anything Model towards Highly Accurate Dichotomous Image Segmentation
作者: Xianjie Liu, Keren Fu, Yao Jiang, Qijun Zhao
分类: cs.CV, cs.AI
发布日期: 2023-12-30 (更新: 2025-03-25)
🔗 代码/项目: GITHUB
💡 一句话要点
提出DIS-SAM,提升SAM在二分图像分割任务中的精度,尤其在边界细节方面。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 二分图像分割 Segment Anything Model 高精度分割 提示学习 深度学习
📋 核心要点
- SAM在二分图像分割任务中,分割掩码缺乏精细的边界细节,限制了其在高精度场景下的应用。
- DIS-SAM通过两阶段方法,结合SAM和改进的DIS网络,并保持SAM的可提示设计,提升分割精度。
- 实验表明,DIS-SAM在最大F-measure指标上显著优于SAM、HQ-SAM和Pi-SAM,分别提升约8.5%、6.9%和3.7%。
📝 摘要(中文)
Segment Anything Model (SAM) 是计算机视觉领域基础模型的一项重大突破,它提供了一个大规模的图像分割模型。然而,尽管 SAM 具有出色的零样本性能,但其分割掩码缺乏精细的细节,尤其是在准确描绘对象边界方面。因此,探索是否可以改进 SAM 以实现高精度对象分割(即二分图像分割 (DIS) 任务)既有趣又有价值。为了解决这个问题,我们提出了 DIS-SAM,它通过极其精确的细节推进 SAM 以实现 DIS。DIS-SAM 是一个专门为高精度分割量身定制的框架,保持了 SAM 的可提示设计。DIS-SAM 采用两阶段方法,将 SAM 与先前设计用于处理无提示 DIS 任务的改进型高级网络集成。为了更好地训练 DIS-SAM,我们采用了一种通过修改原始掩码注释来丰富真实标签的策略。尽管其简单性,DIS-SAM 显著地将 SAM、HQ-SAM 和 Pi-SAM 的最大 F-measure 分别提高了约 8.5%、约 6.9% 和约 3.7%。
🔬 方法详解
问题定义:论文旨在解决SAM模型在二分图像分割(DIS)任务中,分割结果边界细节不够精确的问题。现有方法虽然在零样本分割上表现良好,但在需要高精度分割的场景下,例如医学图像分析、遥感图像解译等,其分割精度不足以满足需求。
核心思路:论文的核心思路是将SAM模型与专门为高精度DIS任务设计的网络相结合,利用SAM的通用分割能力和DIS网络的精细分割能力,从而在保持SAM可提示性的同时,显著提升分割精度。这种结合充分利用了两种模型的优势,弥补了SAM在细节分割上的不足。
技术框架:DIS-SAM框架采用两阶段方法。第一阶段,利用SAM模型生成初始分割结果。第二阶段,将SAM的输出作为提示信息,输入到一个改进的、原本用于无提示DIS任务的网络中,该网络负责对初始分割结果进行精细化处理,从而得到最终的高精度分割结果。此外,论文还提出了一种ground truth enrichment策略,用于更好地训练DIS-SAM模型。
关键创新:DIS-SAM的关键创新在于将SAM模型与专门的DIS网络相结合,并采用两阶段的处理方式。这种结合方式既保留了SAM的通用性和可提示性,又显著提升了分割精度,使其能够胜任高精度的二分图像分割任务。此外,ground truth enrichment策略也为模型的训练提供了更好的监督信息。
关键设计:DIS-SAM的关键设计包括:1) 选择合适的DIS网络,并对其进行必要的修改,使其能够接受SAM的输出作为提示信息;2) 设计有效的ground truth enrichment策略,以增强训练数据的质量;3) 优化两阶段处理流程,确保SAM和DIS网络能够协同工作,充分发挥各自的优势。具体的网络结构和损失函数等细节,论文中可能未详细展开,需要参考相关引用文献。
📊 实验亮点
DIS-SAM在二分图像分割任务上取得了显著的性能提升。实验结果表明,DIS-SAM在最大F-measure指标上,相较于SAM提升了约8.5%,相较于HQ-SAM提升了约6.9%,相较于Pi-SAM提升了约3.7%。这些数据表明,DIS-SAM在提升分割精度方面具有显著优势。
🎯 应用场景
DIS-SAM在医学图像分析、遥感图像解译、工业质检等领域具有广泛的应用前景。其高精度的分割能力可以帮助医生更准确地诊断疾病,帮助遥感专家更精确地分析地物信息,帮助工程师更有效地检测产品缺陷。未来,DIS-SAM有望成为这些领域的重要工具,提升相关工作的效率和质量。
📄 摘要(原文)
The Segment Anything Model (SAM) represents a significant breakthrough into foundation models for computer vision, providing a large-scale image segmentation model. However, despite SAM's zero-shot performance, its segmentation masks lack fine-grained details, particularly in accurately delineating object boundaries. Therefore, it is both interesting and valuable to explore whether SAM can be improved towards highly accurate object segmentation, which is known as the dichotomous image segmentation (DIS) task. To address this issue, we propose DIS-SAM, which advances SAM towards DIS with extremely accurate details. DIS-SAM is a framework specifically tailored for highly accurate segmentation, maintaining SAM's promptable design. DIS-SAM employs a two-stage approach, integrating SAM with a modified advanced network that was previously designed to handle the prompt-free DIS task. To better train DIS-SAM, we employ a ground truth enrichment strategy by modifying original mask annotations. Despite its simplicity, DIS-SAM significantly advances the SAM, HQ-SAM, and Pi-SAM ~by 8.5%, ~6.9%, and ~3.7% maximum F-measure. Our code at https://github.com/Tennine2077/DIS-SAM