Robust Adaptation of Foundation Models with Black-Box Visual Prompting

📄 arXiv: 2407.17491v2 📥 PDF

作者: Changdae Oh, Gyeongdeok Seo, Geunyoung Jung, Zhi-Qi Cheng, Hosik Choi, Jiyoung Jung, Kyungwoo Song

分类: cs.CV, cs.LG

发布日期: 2024-07-04 (更新: 2025-05-31)

备注: Extended work from the CVPR'23 paper: arxiv:2303.14773; This paper has been submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) for possible publication


💡 一句话要点

提出BlackVIP,通过黑盒视觉提示实现基础模型的鲁棒自适应。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 黑盒优化 视觉提示 参数高效迁移学习 预训练模型 鲁棒自适应

📋 核心要点

  1. 现有参数高效迁移学习方法通常需要完全访问预训练模型参数或大量内存来缓存中间激活,这在实际应用中难以满足。
  2. BlackVIP通过设计输入相关的视觉提示,并使用SPSA-GC有效估计梯度,实现了在黑盒条件下对预训练模型的自适应。
  3. 实验结果表明,BlackVIP在多个数据集上实现了鲁棒的自适应,并且具有较低的内存需求,同时理论分析支持了其泛化能力。

📝 摘要(中文)

随着大规模预训练模型的兴起,大模型的参数高效迁移学习(PETL)受到了广泛关注。然而,它们通常依赖于两个乐观的假设:1)完全访问PTM的参数,以及2)足够的内存容量来缓存所有中间激活以进行梯度计算。在大多数实际应用中,PTM作为黑盒API或专有软件,无法完全访问参数。此外,很难满足现代PTM的大内存需求。本文提出了黑盒视觉提示(BlackVIP),它可以在不知道PTM架构或参数的情况下有效地调整PTM。BlackVIP有两个组成部分:1)协调器和2)带有梯度校正的同时扰动随机逼近(SPSA-GC)。协调器设计输入相关的视觉提示,允许目标PTM在实际应用中进行自适应。SPSA-GC有效地估计PTM的梯度以更新协调器。此外,我们引入了一个变体BlackVIP-SE,它显著降低了BlackVIP的运行时间和计算成本。在19个数据集上的大量实验表明,BlackVIP能够以最小的内存需求实现对不同领域和任务的鲁棒自适应。我们进一步通过展示视觉提示方法与随机平滑的认证鲁棒性之间的联系,提供了视觉提示方法泛化的理论分析,并为提高鲁棒性提供了经验支持。

🔬 方法详解

问题定义:现有参数高效迁移学习方法(PETL)通常假设可以完全访问预训练模型(PTM)的参数,并且有足够的内存来缓存中间激活值以计算梯度。然而,在实际应用中,PTM通常以黑盒API的形式存在,无法访问其内部参数。此外,现代PTM的规模巨大,需要大量的内存资源,这使得现有的PETL方法难以应用。因此,如何在黑盒条件下,以较低的内存需求实现PTM的自适应是一个重要的问题。

核心思路:BlackVIP的核心思路是通过视觉提示(Visual Prompting)来引导PTM进行自适应。具体来说,BlackVIP设计一个协调器(Coordinator),该协调器根据输入图像生成特定的视觉提示,并将该提示添加到输入图像中。PTM处理带有提示的图像,从而实现对特定任务的自适应。由于PTM是黑盒,因此无法直接计算梯度。BlackVIP使用同时扰动随机逼近(SPSA)算法来估计PTM的梯度,并使用梯度校正(GC)来提高估计的准确性。

技术框架:BlackVIP的整体框架包括两个主要模块:协调器(Coordinator)和SPSA-GC。协调器是一个可学习的模块,负责生成输入相关的视觉提示。SPSA-GC负责估计PTM的梯度,并使用该梯度来更新协调器的参数。具体流程如下:1) 给定输入图像,协调器生成视觉提示。2) 将视觉提示添加到输入图像中。3) 将带有提示的图像输入到PTM中,得到输出。4) 使用SPSA-GC估计PTM的梯度。5) 使用估计的梯度更新协调器的参数。

关键创新:BlackVIP的关键创新在于它能够在黑盒条件下,以较低的内存需求实现PTM的自适应。与现有方法相比,BlackVIP不需要访问PTM的内部参数,也不需要缓存中间激活值。此外,BlackVIP使用SPSA-GC来估计梯度,这使得它能够处理大规模的PTM。BlackVIP-SE通过简化计算流程,进一步降低了运行时间和计算成本。

关键设计:协调器可以使用各种网络结构,例如卷积神经网络(CNN)或Transformer。视觉提示可以添加到输入图像的不同位置,例如图像的边缘或中心。SPSA-GC的扰动幅度是一个重要的参数,需要根据具体任务进行调整。BlackVIP-SE通过使用更少的扰动来降低计算成本,但可能会牺牲一定的性能。损失函数通常是交叉熵损失或均方误差损失,具体取决于任务类型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BlackVIP在19个数据集上实现了鲁棒的自适应,并且具有较低的内存需求。例如,在某些数据集上,BlackVIP的性能甚至超过了需要完全访问模型参数的方法。BlackVIP-SE在显著降低运行时间和计算成本的同时,仍然保持了良好的性能。此外,论文还提供了视觉提示方法泛化的理论分析,并为提高鲁棒性提供了经验支持。

🎯 应用场景

BlackVIP可应用于各种需要利用预训练模型,但又无法完全访问模型参数或满足高内存需求的场景,例如:医疗影像分析、自动驾驶、智能安防等。该方法能够快速适应新的领域和任务,降低了模型部署和维护的成本,具有广泛的应用前景。

📄 摘要(原文)

With a surge of large-scale pre-trained models, parameter-efficient transfer learning (PETL) of large models has garnered significant attention. While promising, they commonly rely on two optimistic assumptions: 1) full access to the parameters of a PTM, and 2) sufficient memory capacity to cache all intermediate activations for gradient computation. However, in most real-world applications, PTMs serve as black-box APIs or proprietary software without full parameter accessibility. Besides, it is hard to meet a large memory requirement for modern PTMs. This work proposes black-box visual prompting (BlackVIP), which efficiently adapts the PTMs without knowledge of their architectures or parameters. BlackVIP has two components: 1) Coordinator and 2) simultaneous perturbation stochastic approximation with gradient correction (SPSA-GC). The Coordinator designs input-dependent visual prompts, which allow the target PTM to adapt in the wild. SPSA-GC efficiently estimates the gradient of PTM to update Coordinator. Besides, we introduce a variant, BlackVIP-SE, which significantly reduces the runtime and computational cost of BlackVIP. Extensive experiments on 19 datasets demonstrate that BlackVIPs enable robust adaptation to diverse domains and tasks with minimal memory requirements. We further provide a theoretical analysis on the generalization of visual prompting methods by presenting their connection to the certified robustness of randomized smoothing, and presenting an empirical support for improved robustness.