InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective

📄 arXiv: 2505.21920v2 📥 PDF

作者: Yuanhong Zhang, Muyao Yuan, Weizhan Zhang, Tieliang Gong, Wen Wen, Jiangyong Ying, Weijie Shi

分类: cs.CV

发布日期: 2025-05-28 (更新: 2025-06-03)

备注: Accepted by ICML 2025 (spotlight)


💡 一句话要点

InfoSAM:基于信息论微调SAM,提升其在特定领域的分割性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: SAM微调 参数高效微调 知识蒸馏 互信息 领域自适应 视觉基础模型 语义分割

📋 核心要点

  1. 现有SAM的参数高效微调方法忽略了预训练模型中蕴含的领域不变关系,导致微调效果不佳。
  2. InfoSAM通过信息论方法,提炼并保留SAM预训练的分割知识,从而增强微调效果。
  3. 实验表明,InfoSAM能有效提升SAM系列模型在真实场景下的性能,展现出良好的适应性和优越性。

📝 摘要(中文)

Segment Anything Model (SAM) 作为一个视觉基础模型,在通用任务中表现出令人印象深刻的零样本能力,但在特定领域却表现不佳。参数高效微调 (PEFT) 是一种有希望的方法,可以释放 SAM 在新场景中的潜力。然而,现有的 SAM 的 PEFT 方法忽略了预训练模型中编码的领域不变关系。为了弥合这一差距,我们提出了 InfoSAM,一种基于信息论的方法,通过提炼和保留其预训练的分割知识来增强 SAM 微调。具体来说,我们将知识转移过程表述为两个新的基于互信息的优化目标:(i) 压缩从预训练 SAM 中提取的领域不变关系,尽可能排除伪不变信息,以及 (ii) 最大化教师(预训练 SAM)和学生(微调模型)学习的关系知识之间的互信息。所提出的 InfoSAM 为 SAM 的 PEFT 建立了一个鲁棒的蒸馏框架。跨多个基准的广泛实验验证了 InfoSAM 在提高 SAM 系列在现实世界任务中的性能方面的有效性,证明了其在处理特定场景中的适应性和优越性。

🔬 方法详解

问题定义:论文旨在解决SAM在特定领域应用时,由于缺乏领域知识而导致分割性能下降的问题。现有参数高效微调方法忽略了预训练SAM中蕴含的领域不变关系,无法充分利用预训练模型的知识。

核心思路:论文的核心思路是利用信息论方法,将预训练SAM的知识迁移到微调后的模型中,同时避免迁移伪不变信息。通过最大化预训练模型和微调模型之间的互信息,保证领域不变关系的有效传递。

技术框架:InfoSAM的整体框架是一个知识蒸馏框架。预训练的SAM作为教师模型,微调后的SAM作为学生模型。框架包含两个主要的互信息优化目标:一是压缩教师模型提取的领域不变关系,排除伪不变信息;二是最大化教师模型和学生模型学习的关系知识之间的互信息。

关键创新:论文的关键创新在于提出了基于互信息的知识蒸馏方法,用于SAM的参数高效微调。该方法能够有效地将预训练SAM的领域不变知识迁移到微调模型中,同时避免了伪不变信息的干扰。与现有方法相比,InfoSAM更注重知识的有效传递和压缩。

关键设计:论文的关键设计包括:(1) 使用互信息作为知识传递的度量,保证了领域不变关系的有效传递;(2) 设计了压缩领域不变关系的目标,避免了伪不变信息的干扰;(3) 采用参数高效微调策略,降低了计算成本和存储成本。具体的互信息计算方法和网络结构细节在论文中有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,InfoSAM在多个数据集上显著提升了SAM的性能。例如,在XXX数据集上,InfoSAM相比于baseline方法提升了X%,证明了其在特定领域分割任务中的有效性。具体数据集名称和性能提升幅度未知,需要在论文中查找。

🎯 应用场景

InfoSAM具有广泛的应用前景,例如医学图像分割、遥感图像分析、工业缺陷检测等。通过对SAM进行高效的领域知识微调,可以显著提升其在特定任务中的分割精度,降低人工标注成本,加速相关领域的智能化进程。该方法也为其他视觉基础模型的领域自适应提供了借鉴。

📄 摘要(原文)

The Segment Anything Model (SAM), a vision foundation model, exhibits impressive zero-shot capabilities in general tasks but struggles in specialized domains. Parameter-efficient fine-tuning (PEFT) is a promising approach to unleash the potential of SAM in novel scenarios. However, existing PEFT methods for SAM neglect the domain-invariant relations encoded in the pre-trained model. To bridge this gap, we propose InfoSAM, an information-theoretic approach that enhances SAM fine-tuning by distilling and preserving its pre-trained segmentation knowledge. Specifically, we formulate the knowledge transfer process as two novel mutual information-based objectives: (i) to compress the domain-invariant relation extracted from pre-trained SAM, excluding pseudo-invariant information as possible, and (ii) to maximize mutual information between the relational knowledge learned by the teacher (pre-trained SAM) and the student (fine-tuned model). The proposed InfoSAM establishes a robust distillation framework for PEFT of SAM. Extensive experiments across diverse benchmarks validate InfoSAM's effectiveness in improving SAM family's performance on real-world tasks, demonstrating its adaptability and superiority in handling specialized scenarios.