SAFER: Sharpness Aware layer-selective Finetuning for Enhanced Robustness in vision transformers

作者: Bhavna Gopal, Huanrui Yang, Mark Horton, Yiran Chen

分类: cs.CV

发布日期: 2025-01-02

💡 一句话要点

SAFER：针对视觉Transformer的层选择性精调，提升鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉Transformer 对抗鲁棒性 对抗过拟合 层选择性微调 锐度感知最小化

📋 核心要点

ViT易受对抗攻击，且参数众多易过拟合，导致干净和对抗准确率下降。
SAFER通过选择性微调易过拟合层，并使用锐度感知最小化，避免全局优化。
实验表明，SAFER在多种ViT架构和数据集上，显著提升了干净和对抗准确率。

📝 摘要（中文）

视觉Transformer (ViT) 已成为高级计算机视觉应用和多模态基础模型中的重要骨干网络。尽管ViT具有优势，但它们仍然容易受到对抗扰动的影响，其脆弱性与卷积神经网络 (CNN) 相当甚至超过了CNN。此外，ViT 的大参数量和复杂架构使其特别容易受到对抗过拟合的影响，这通常会损害干净样本和对抗样本的准确性。本文通过一种新颖的层选择性微调方法 SAFER 来缓解 ViT 中的对抗过拟合。我们不是优化整个模型，而是识别并选择性地微调最容易过拟合的一小部分层，对这些层应用 sharpness-aware minimization，同时冻结模型的其余部分。我们的方法始终如一地提高了干净样本和对抗样本的准确性，典型改进约为 5%，在各种 ViT 架构和数据集上，某些情况下增益高达 20%。

🔬 方法详解

问题定义：ViT模型虽然在图像识别等任务上表现出色，但其对抗鲁棒性较差，容易受到对抗样本的攻击。同时，由于ViT模型参数量大，容易发生对抗过拟合，导致模型在干净样本和对抗样本上的泛化能力下降。现有方法通常采用全局微调策略，计算成本高昂且效果有限。

核心思路：SAFER的核心思想是并非所有层都对对抗过拟合的贡献相同，因此选择性地微调那些最容易过拟合的层，同时冻结其他层。通过这种方式，可以减少需要优化的参数量，降低计算成本，并避免对模型其他部分的过度调整。同时，SAFER采用锐度感知最小化（Sharpness-Aware Minimization, SAM）来优化选定的层，以提高模型的泛化能力和鲁棒性。

技术框架：SAFER方法主要包含两个阶段：1) 层选择：识别ViT模型中对对抗过拟合最敏感的层。具体方法未知，可能通过敏感性分析或梯度信息来确定。2) 选择性微调：仅对选定的层进行微调，同时冻结模型的其他层。在微调过程中，使用SAM优化器来最小化损失函数，提高模型的鲁棒性。

关键创新：SAFER的关键创新在于提出了层选择性微调策略，避免了对整个ViT模型进行全局优化，从而降低了计算成本，并提高了微调的效率。此外，结合SAM优化器，进一步提升了模型的泛化能力和对抗鲁棒性。与现有方法相比，SAFER能够更有效地缓解ViT模型的对抗过拟合问题。

关键设计：论文中未明确给出层选择的具体算法或标准，以及SAM优化器的具体参数设置。这些细节可能依赖于具体的ViT架构和数据集。损失函数的选择也未明确说明，但通常会采用交叉熵损失或其变体。关键在于如何确定哪些层需要进行微调，以及如何平衡干净样本和对抗样本的准确率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SAFER方法在各种ViT架构和数据集上均能显著提升干净样本和对抗样本的准确率。典型改进约为5%，在某些情况下增益高达20%。这些结果表明，SAFER是一种有效的缓解ViT模型对抗过拟合的方法，能够显著提高模型的鲁棒性。

🎯 应用场景

SAFER方法可应用于各种基于ViT的计算机视觉任务，例如图像分类、目标检测、语义分割等。通过提高ViT模型的对抗鲁棒性，可以增强其在安全敏感场景中的可靠性，例如自动驾驶、人脸识别和医疗图像分析。该方法还有助于提升多模态基础模型在对抗环境下的性能。

📄 摘要（原文）

Vision transformers (ViTs) have become essential backbones in advanced computer vision applications and multi-modal foundation models. Despite their strengths, ViTs remain vulnerable to adversarial perturbations, comparable to or even exceeding the vulnerability of convolutional neural networks (CNNs). Furthermore, the large parameter count and complex architecture of ViTs make them particularly prone to adversarial overfitting, often compromising both clean and adversarial accuracy. This paper mitigates adversarial overfitting in ViTs through a novel, layer-selective fine-tuning approach: SAFER. Instead of optimizing the entire model, we identify and selectively fine-tune a small subset of layers most susceptible to overfitting, applying sharpness-aware minimization to these layers while freezing the rest of the model. Our method consistently enhances both clean and adversarial accuracy over baseline approaches. Typical improvements are around 5%, with some cases achieving gains as high as 20% across various ViT architectures and datasets.

SAFER: Sharpness Aware layer-selective Finetuning for Enhanced Robustness in vision transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理