InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective

作者: Yuanhong Zhang, Muyao Yuan, Weizhan Zhang, Tieliang Gong, Wen Wen, Jiangyong Ying, Weijie Shi

分类: cs.CV

发布日期: 2025-05-28 (更新: 2025-06-03)

备注: Accepted by ICML 2025 (spotlight)

💡 一句话要点

InfoSAM：基于信息论微调SAM，提升其在特定领域的分割性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: SAM微调 参数高效微调 知识蒸馏 互信息 领域自适应 视觉基础模型 语义分割

📋 核心要点

现有SAM的参数高效微调方法忽略了预训练模型中蕴含的领域不变关系，导致微调效果不佳。
InfoSAM通过信息论方法，提炼并保留SAM预训练的分割知识，从而增强微调效果。
实验表明，InfoSAM能有效提升SAM系列模型在真实场景下的性能，展现出良好的适应性和优越性。

📝 摘要（中文）

Segment Anything Model (SAM) 作为一个视觉基础模型，在通用任务中表现出令人印象深刻的零样本能力，但在特定领域却表现不佳。参数高效微调 (PEFT) 是一种有希望的方法，可以释放 SAM 在新场景中的潜力。然而，现有的 SAM 的 PEFT 方法忽略了预训练模型中编码的领域不变关系。为了弥合这一差距，我们提出了 InfoSAM，一种基于信息论的方法，通过提炼和保留其预训练的分割知识来增强 SAM 微调。具体来说，我们将知识转移过程表述为两个新的基于互信息的优化目标：(i) 压缩从预训练 SAM 中提取的领域不变关系，尽可能排除伪不变信息，以及 (ii) 最大化教师（预训练 SAM）和学生（微调模型）学习的关系知识之间的互信息。所提出的 InfoSAM 为 SAM 的 PEFT 建立了一个鲁棒的蒸馏框架。跨多个基准的广泛实验验证了 InfoSAM 在提高 SAM 系列在现实世界任务中的性能方面的有效性，证明了其在处理特定场景中的适应性和优越性。

🔬 方法详解

问题定义：论文旨在解决SAM在特定领域应用时，由于缺乏领域知识而导致分割性能下降的问题。现有参数高效微调方法忽略了预训练SAM中蕴含的领域不变关系，无法充分利用预训练模型的知识。

核心思路：论文的核心思路是利用信息论方法，将预训练SAM的知识迁移到微调后的模型中，同时避免迁移伪不变信息。通过最大化预训练模型和微调模型之间的互信息，保证领域不变关系的有效传递。

技术框架：InfoSAM的整体框架是一个知识蒸馏框架。预训练的SAM作为教师模型，微调后的SAM作为学生模型。框架包含两个主要的互信息优化目标：一是压缩教师模型提取的领域不变关系，排除伪不变信息；二是最大化教师模型和学生模型学习的关系知识之间的互信息。

关键创新：论文的关键创新在于提出了基于互信息的知识蒸馏方法，用于SAM的参数高效微调。该方法能够有效地将预训练SAM的领域不变知识迁移到微调模型中，同时避免了伪不变信息的干扰。与现有方法相比，InfoSAM更注重知识的有效传递和压缩。

关键设计：论文的关键设计包括：(1) 使用互信息作为知识传递的度量，保证了领域不变关系的有效传递；(2) 设计了压缩领域不变关系的目标，避免了伪不变信息的干扰；(3) 采用参数高效微调策略，降低了计算成本和存储成本。具体的互信息计算方法和网络结构细节在论文中有详细描述，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

实验结果表明，InfoSAM在多个数据集上显著提升了SAM的性能。例如，在XXX数据集上，InfoSAM相比于baseline方法提升了X%，证明了其在特定领域分割任务中的有效性。具体数据集名称和性能提升幅度未知，需要在论文中查找。

🎯 应用场景

InfoSAM具有广泛的应用前景，例如医学图像分割、遥感图像分析、工业缺陷检测等。通过对SAM进行高效的领域知识微调，可以显著提升其在特定任务中的分割精度，降低人工标注成本，加速相关领域的智能化进程。该方法也为其他视觉基础模型的领域自适应提供了借鉴。

📄 摘要（原文）

The Segment Anything Model (SAM), a vision foundation model, exhibits impressive zero-shot capabilities in general tasks but struggles in specialized domains. Parameter-efficient fine-tuning (PEFT) is a promising approach to unleash the potential of SAM in novel scenarios. However, existing PEFT methods for SAM neglect the domain-invariant relations encoded in the pre-trained model. To bridge this gap, we propose InfoSAM, an information-theoretic approach that enhances SAM fine-tuning by distilling and preserving its pre-trained segmentation knowledge. Specifically, we formulate the knowledge transfer process as two novel mutual information-based objectives: (i) to compress the domain-invariant relation extracted from pre-trained SAM, excluding pseudo-invariant information as possible, and (ii) to maximize mutual information between the relational knowledge learned by the teacher (pre-trained SAM) and the student (fine-tuned model). The proposed InfoSAM establishes a robust distillation framework for PEFT of SAM. Extensive experiments across diverse benchmarks validate InfoSAM's effectiveness in improving SAM family's performance on real-world tasks, demonstrating its adaptability and superiority in handling specialized scenarios.

InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理