Examining the Threat Landscape: Foundation Models and Model Stealing
作者: Ankita Raj, Deepankar Varma, Chetan Arora
分类: cs.CV, cs.CR, cs.LG
发布日期: 2025-02-25
备注: Accepted to BMVC 2024
期刊: 35th British Machine Vision Conference 2024, Glasgow, UK, November 25-28, 2024
🔗 代码/项目: GITHUB
💡 一句话要点
揭示基础模型易受模型窃取攻击的风险,并提出安全部署建议。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型窃取 基础模型 计算机视觉 安全风险 对抗攻击
📋 核心要点
- 现有方法难以防御针对基础模型的模型窃取攻击,这给商业API部署带来安全隐患。
- 论文核心思想是揭示基础模型固有的脆弱性,即预训练带来的丰富表征易被攻击者利用。
- 实验表明,基于Vision Transformer的基础模型比ResNet更容易被窃取,预测一致性高达94.28%。
📝 摘要(中文)
计算机视觉领域的基础模型(FMs)学习到丰富且鲁棒的表征,使其能够通过少量甚至无需微调即可适应特定任务/领域的部署。然而,我们认为,这种优势也可能使基于FMs的应用程序容易受到模型窃取攻击。通过实证分析,我们发现,与传统的视觉架构(如ResNets)相比,从FMs微调的模型更容易受到模型窃取的影响。我们假设这种行为是由于FMs在预训练期间学习到的视觉模式和特征的全面编码,攻击者和受害者都可以访问这些信息。我们报告说,当使用ViT-L/16作为窃取模型时,基于Vision Transformer的受害者模型(ViT-L/16)在CIFAR-10数据集上训练后,攻击者能够获得94.28%的预测一致性(与受害者匹配的预测),而ResNet-18受害者模型仅为73.20%。我们首次论证表明,由于FMs容易受到模型窃取的影响,因此将FMs用于下游任务可能不是商业API部署的最佳选择。因此,我们提醒模型所有者注意相关的安全风险,并强调需要采取强有力的安全措施来保护此类模型免受窃取。
🔬 方法详解
问题定义:论文旨在解决基础模型(Foundation Models, FMs)在下游任务中部署时,更容易受到模型窃取攻击的问题。现有方法,如ResNet等传统架构,在面对模型窃取攻击时相对更安全。然而,基于FMs微调的模型,由于其强大的表征能力,反而更容易被攻击者窃取,这给商业API的安全性带来了新的挑战。
核心思路:论文的核心思路是,FMs在预训练阶段学习到了大量通用的视觉特征,这些特征被编码在模型的参数中。当FMs被用于下游任务并进行微调时,这些通用的视觉特征仍然存在,并且可以被攻击者利用。攻击者可以通过查询微调后的模型,并分析其输出,来推断出模型的参数和结构,从而窃取模型。
技术框架:论文采用了一种基于查询的模型窃取攻击方法。攻击者通过向受害者模型发送大量的查询请求,并观察受害者模型的输出。然后,攻击者使用这些输入-输出对来训练一个替代模型(也称为窃取模型),使其能够模仿受害者模型的行为。论文比较了不同架构的受害者模型(如ResNet和Vision Transformer)在面对模型窃取攻击时的表现。
关键创新:论文的关键创新在于,首次揭示了FMs在下游任务中部署时,更容易受到模型窃取攻击的风险。论文通过实验证明,基于Vision Transformer的FMs比ResNet更容易被窃取。这一发现对FMs的安全性提出了新的挑战,并提醒模型所有者需要采取更强的安全措施来保护他们的模型。
关键设计:论文使用了ViT-L/16作为基础模型,并在CIFAR-10数据集上进行了微调。攻击者也使用了ViT-L/16作为窃取模型。论文使用预测一致性(agreement)作为评估模型窃取效果的指标。预测一致性是指窃取模型的输出与受害者模型的输出一致的比例。论文还比较了不同攻击策略和防御策略的效果,以评估模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用ViT-L/16作为窃取模型攻击在CIFAR-10上微调的ViT-L/16受害者模型时,攻击者可以达到94.28%的预测一致性。相比之下,攻击ResNet-18受害者模型时,预测一致性仅为73.20%。这表明基于Vision Transformer的基础模型更容易受到模型窃取攻击。
🎯 应用场景
该研究成果对商业AI服务的安全部署具有重要意义。模型窃取会造成巨大的经济损失和知识产权侵权。该研究提醒模型所有者重视基础模型的安全风险,并促进开发更有效的防御机制,例如差分隐私、水印技术等,以保护模型免受窃取。
📄 摘要(原文)
Foundation models (FMs) for computer vision learn rich and robust representations, enabling their adaptation to task/domain-specific deployments with little to no fine-tuning. However, we posit that the very same strength can make applications based on FMs vulnerable to model stealing attacks. Through empirical analysis, we reveal that models fine-tuned from FMs harbor heightened susceptibility to model stealing, compared to conventional vision architectures like ResNets. We hypothesize that this behavior is due to the comprehensive encoding of visual patterns and features learned by FMs during pre-training, which are accessible to both the attacker and the victim. We report that an attacker is able to obtain 94.28% agreement (matched predictions with victim) for a Vision Transformer based victim model (ViT-L/16) trained on CIFAR-10 dataset, compared to only 73.20% agreement for a ResNet-18 victim, when using ViT-L/16 as the thief model. We arguably show, for the first time, that utilizing FMs for downstream tasks may not be the best choice for deployment in commercial APIs due to their susceptibility to model theft. We thereby alert model owners towards the associated security risks, and highlight the need for robust security measures to safeguard such models against theft. Code is available at https://github.com/rajankita/foundation_model_stealing.