Robust Adaptation of Foundation Models with Black-Box Visual Prompting

📄 arXiv: 2407.17491 📥 PDF

作者: Changdae Oh, Gyeongdeok Seo, Geunyoung Jung, Zhi-Qi Cheng, Hosik Choi, Jiyoung Jung, Kyungwoo Song

分类: cs.CV, cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出BlackVIP,通过黑盒视觉提示实现大模型在有限资源下的鲁棒自适应。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 黑盒优化 视觉提示 参数高效迁移学习 预训练模型 鲁棒自适应

📋 核心要点

  1. 现有参数高效迁移学习方法依赖于完全访问预训练模型参数和充足的内存,这在实际黑盒API场景中难以满足。
  2. BlackVIP通过设计输入相关的视觉提示,并使用SPSA-GC有效估计梯度,实现了在无需访问模型参数的情况下进行自适应。
  3. 实验表明,BlackVIP在多个数据集上实现了鲁棒的自适应,并且具有更低的内存需求,同时理论分析支持其泛化能力。

📝 摘要(中文)

随着大规模预训练模型的兴起,大模型的参数高效迁移学习(PETL)受到了广泛关注。然而,它们通常依赖于两个乐观的假设:1)完全访问PTM的参数,以及2)足够的内存容量来缓存所有中间激活以进行梯度计算。在大多数实际应用中,PTM作为黑盒API或专有软件提供,无法完全访问参数。此外,满足现代PTM的大内存需求也很困难。本文提出了黑盒视觉提示(BlackVIP),它可以在不知道PTM架构或参数的情况下有效地适应PTM。BlackVIP包含两个组件:1)Coordinator和2)带有梯度校正的同时扰动随机逼近(SPSA-GC)。Coordinator设计输入相关的视觉提示,使目标PTM能够在实际应用中进行自适应。SPSA-GC有效地估计PTM的梯度以更新Coordinator。此外,我们引入了一个变体BlackVIP-SE,它显著降低了BlackVIP的运行时间和计算成本。在19个数据集上的大量实验表明,BlackVIP能够以最小的内存需求实现对不同领域和任务的鲁棒自适应。我们进一步通过展示视觉提示方法与随机平滑的认证鲁棒性之间的联系,并提供改进鲁棒性的经验支持,对视觉提示方法的泛化进行了理论分析。

🔬 方法详解

问题定义:现有参数高效迁移学习方法通常假设可以完全访问预训练模型(PTM)的参数,并且有足够的内存来缓存中间激活值以计算梯度。然而,在实际应用中,PTM通常以黑盒API的形式存在,无法直接访问参数。此外,现代PTM的规模巨大,对内存的需求很高,这限制了其在资源受限环境中的应用。因此,如何在不访问PTM参数且内存有限的情况下,实现PTM的有效自适应是一个重要的挑战。

核心思路:BlackVIP的核心思路是通过视觉提示(Visual Prompting)来引导PTM适应目标任务,而无需直接修改PTM的参数。具体来说,BlackVIP设计了一个Coordinator模块,用于生成输入相关的视觉提示,并将这些提示添加到输入图像中。通过优化这些视觉提示,可以使PTM在目标任务上表现更好。为了在黑盒场景下优化视觉提示,BlackVIP采用了同时扰动随机逼近(SPSA)算法,该算法可以通过查询PTM的输出来估计梯度,而无需访问PTM的内部参数。

技术框架:BlackVIP的整体框架包含两个主要模块:Coordinator和SPSA-GC。Coordinator负责生成输入相关的视觉提示,它接收输入图像作为输入,并输出一个与输入图像大小相同的视觉提示。SPSA-GC负责估计PTM的梯度,并使用该梯度来更新Coordinator的参数。整个训练过程如下:首先,将输入图像和视觉提示输入到PTM中,得到PTM的输出。然后,使用SPSA-GC算法估计PTM的梯度。最后,使用估计的梯度来更新Coordinator的参数。

关键创新:BlackVIP的关键创新在于它能够在黑盒场景下,通过视觉提示来实现PTM的自适应。与传统的参数高效迁移学习方法相比,BlackVIP不需要访问PTM的参数,因此可以应用于更广泛的场景。此外,BlackVIP还引入了梯度校正(Gradient Correction)机制,以提高SPSA算法的效率和稳定性。BlackVIP-SE是BlackVIP的变体,通过减少视觉提示的参数量,进一步降低了计算成本。

关键设计:Coordinator可以使用各种网络结构,例如卷积神经网络(CNN)或Transformer。视觉提示的大小通常与输入图像的大小相同。SPSA-GC算法的关键参数包括扰动幅度、学习率等。梯度校正机制可以通过多种方式实现,例如使用动量或Adam优化器。BlackVIP-SE通过共享视觉提示的参数,减少了参数量,从而降低了计算成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BlackVIP在19个不同的数据集上实现了鲁棒的自适应,并且具有较低的内存需求。例如,在某些数据集上,BlackVIP的性能甚至超过了需要访问PTM参数的传统方法。BlackVIP-SE进一步降低了计算成本,使其更适用于资源受限的环境。此外,论文还提供了理论分析,证明了视觉提示方法与随机平滑的认证鲁棒性之间的联系。

🎯 应用场景

BlackVIP适用于各种需要利用大规模预训练模型,但又无法直接访问模型参数或内存资源有限的场景。例如,在移动设备上部署视觉模型,或者使用第三方API进行图像识别等。该研究有助于推动预训练模型在实际应用中的普及,并降低使用门槛。未来,可以进一步探索如何将BlackVIP应用于其他模态的数据,例如文本和语音。

📄 摘要(原文)

With a surge of large-scale pre-trained models, parameter-efficient transfer learning (PETL) of large models has garnered significant attention. While promising, they commonly rely on two optimistic assumptions: 1) full access to the parameters of a PTM, and 2) sufficient memory capacity to cache all intermediate activations for gradient computation. However, in most real-world applications, PTMs serve as black-box APIs or proprietary software without full parameter accessibility. Besides, it is hard to meet a large memory requirement for modern PTMs. This work proposes black-box visual prompting (BlackVIP), which efficiently adapts the PTMs without knowledge of their architectures or parameters. BlackVIP has two components: 1) Coordinator and 2) simultaneous perturbation stochastic approximation with gradient correction (SPSA-GC). The Coordinator designs input-dependent visual prompts, which allow the target PTM to adapt in the wild. SPSA-GC efficiently estimates the gradient of PTM to update Coordinator. Besides, we introduce a variant, BlackVIP-SE, which significantly reduces the runtime and computational cost of BlackVIP. Extensive experiments on 19 datasets demonstrate that BlackVIPs enable robust adaptation to diverse domains and tasks with minimal memory requirements. We further provide a theoretical analysis on the generalization of visual prompting methods by presenting their connection to the certified robustness of randomized smoothing, and presenting an empirical support for improved robustness.