Generalized SAM: Efficient Fine-Tuning of SAM for Variable Input Image Sizes

作者: Sota Kato, Hinako Mitsuoka, Kazuhiro Hotta

分类: cs.CV

发布日期: 2026-04-06

💡 一句话要点

提出GSAM，通过随机裁剪高效微调SAM以适应可变输入图像尺寸

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像分割 基础模型 微调 随机裁剪 可变输入尺寸

📋 核心要点

SAM输入尺寸固定为1024x1024，微调计算成本高，且固定尺寸可能导致图像信息损失。
GSAM的核心在于训练时采用随机裁剪，降低计算成本，同时适应不同尺寸的输入图像。
实验表明，GSAM在多种数据集上比SAM和其他微调方法更高效，并达到相当或更高的精度。

📝 摘要（中文）

本文提出了一种新颖的有效微调方法，使得Segment Anything Model (SAM) 能够处理可变的输入图像尺寸，命名为Generalized SAM (GSAM)。SAM是一个强大的图像分割基础模型，但需要进行微调才能识别任意类别。SAM的输入图像尺寸固定为1024 x 1024，导致训练期间计算需求巨大。此外，固定的输入图像尺寸可能会导致图像信息丢失，例如由于固定的宽高比。为了解决这个问题，GSAM在训练期间应用随机裁剪，从而显著降低了训练的计算成本。在各种类型和像素计数的多个数据集上的实验表明，GSAM比SAM和其他SAM微调方法能够更有效地进行训练，并实现相当或更高的精度。

🔬 方法详解

问题定义：SAM作为强大的图像分割模型，其输入图像尺寸被固定为1024x1024，这在微调过程中带来了巨大的计算负担。此外，固定尺寸的输入限制了模型对不同宽高比图像的适应性，可能导致图像信息的损失，降低分割精度。因此，如何降低SAM微调的计算成本，并使其能够处理可变尺寸的输入图像，是本文要解决的核心问题。

核心思路：GSAM的核心思路是在训练过程中引入随机裁剪。通过随机裁剪，模型可以在训练时接触到不同尺寸和宽高比的图像块，从而提高其泛化能力和对可变输入尺寸的适应性。此外，随机裁剪还可以减少每次迭代的计算量，从而提高训练效率。

技术框架：GSAM的整体框架仍然基于SAM，主要修改在于训练流程。具体而言，在每次迭代中，首先对输入图像进行随机裁剪，然后将裁剪后的图像输入SAM进行分割。模型的其他部分，如图像编码器、提示编码器和分割解码器，保持不变。训练过程中使用标准的分割损失函数，如交叉熵损失或Dice损失。

关键创新：GSAM最关键的创新点在于将随机裁剪引入到SAM的训练流程中。这使得模型能够学习到对不同尺寸和宽高比图像的鲁棒表示，从而克服了SAM对固定输入尺寸的限制。与现有方法相比，GSAM不需要对SAM的网络结构进行修改，易于实现和部署。

关键设计：GSAM的关键设计在于随机裁剪的策略。论文中可能涉及对裁剪尺寸和宽高比的设置，以及裁剪区域的选择方法。此外，损失函数的选择和优化器的设置也会影响模型的性能。具体的技术细节需要在论文中进一步查找。

🖼️ 关键图片

📊 实验亮点

GSAM在各种类型和像素计数的多个数据集上进行了实验，结果表明，GSAM比SAM和其他SAM微调方法能够更有效地进行训练，并实现相当或更高的精度。具体的性能数据和对比基线需要在论文中查找。GSAM的训练效率提升主要归功于随机裁剪策略，该策略减少了每次迭代的计算量。

🎯 应用场景

GSAM具有广泛的应用前景，例如在自动驾驶、医学图像分析、遥感图像处理等领域。它可以用于分割各种尺寸和类型的图像，例如道路场景、细胞图像、卫星图像等。GSAM的实际价值在于降低了SAM的微调成本，使其能够更容易地应用于各种实际场景。未来，GSAM可以进一步扩展到其他基础模型，提高其对可变输入尺寸的适应性。

📄 摘要（原文）

There has been a lot of recent research on improving the efficiency of fine-tuning foundation models. In this paper, we propose a novel efficient fine-tuning method that allows the input image size of Segment Anything Model (SAM) to be variable. SAM is a powerful foundational model for image segmentation trained on huge datasets, but it requires fine-tuning to recognize arbitrary classes. The input image size of SAM is fixed at 1024 x 1024, resulting in substantial computational demands during training. Furthermore, the fixed input image size may result in the loss of image information, e.g. due to fixed aspect ratios. To address this problem, we propose Generalized SAM (GSAM). Different from the previous methods, GSAM is the first to apply random cropping during training with SAM, thereby significantly reducing the computational cost of training. Experiments on datasets of various types and various pixel counts have shown that GSAM can train more efficiently than SAM and other fine-tuning methods for SAM, achieving comparable or higher accuracy.

Generalized SAM: Efficient Fine-Tuning of SAM for Variable Input Image Sizes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理