Vera Verto: Multimodal Hijacking Attack

📄 arXiv: 2408.00129v1 📥 PDF

作者: Minxing Zhang, Ahmed Salem, Michael Backes, Yang Zhang

分类: cs.CR, cs.LG

发布日期: 2024-07-31


💡 一句话要点

提出Vera Verto,实现图像分类模型上的多模态劫持攻击,将NLP任务植入图像模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 模型劫持攻击 对抗攻击 图像分类 自然语言处理

📋 核心要点

  1. 现有模型劫持攻击主要集中在同质模态任务,缺乏对跨模态场景的有效攻击方法。
  2. 提出名为Blender的编码器-解码器框架,利用图像和语言模型,实现NLP任务对图像分类模型的劫持。
  3. 实验表明,该攻击方法在不同数据集上均能取得较高的攻击成功率,验证了其有效性。

📝 摘要(中文)

日益增长的机器学习模型训练成本导致更多参与者加入训练流程,例如贡献训练数据的用户和提供计算资源的公司。这种新的参与模式为对抗攻击引入了新的攻击面。模型劫持攻击是该领域一种新兴攻击方式,攻击者劫持受害者模型以实现其自身的(可能是恶意的)劫持任务。然而,目前模型劫持攻击的范围仅限于同质模态任务。本文将模型劫持攻击扩展到更通用的多模态设置,其中劫持任务和原始任务在不同模态的数据上执行。具体而言,我们关注于将自然语言处理(NLP)劫持任务植入图像分类模型。为了发起攻击,我们提出了一种新颖的基于编码器-解码器的框架,即Blender,它依赖于先进的图像和语言模型。实验结果表明,我们的模态劫持攻击在不同设置下均取得了良好的性能。例如,当使用Sogou新闻数据集劫持STL10、CIFAR-10和MNIST分类器时,我们的攻击成功率分别达到了94%、94%和95%。

🔬 方法详解

问题定义:论文旨在解决多模态模型劫持问题,即在图像分类模型中植入NLP任务。现有模型劫持攻击主要针对同质模态,无法有效应对跨模态场景,攻击者难以利用NLP任务来操控图像分类模型,从而实现恶意目的。

核心思路:论文的核心思路是利用编码器-解码器框架,将图像特征转换为文本表示,然后利用语言模型执行劫持任务。通过这种模态转换,可以将NLP任务“嫁接”到图像分类模型上,实现跨模态的攻击。这种设计允许攻击者利用NLP的灵活性和表达能力来控制图像模型的行为。

技术框架:整体框架包含图像编码器、文本解码器和分类器三个主要模块。图像编码器负责提取输入图像的特征;文本解码器将图像特征转换为文本描述,并执行劫持任务(例如,生成特定的文本);分类器则基于图像特征进行原始的图像分类。整个流程可以看作是将图像分类任务与NLP任务融合在一起,从而实现劫持攻击。

关键创新:该论文的关键创新在于提出了一个通用的多模态劫持攻击框架,能够将一种模态的任务(NLP)注入到另一种模态的模型(图像分类)。Blender框架通过模态转换,打破了传统劫持攻击的模态限制,扩展了攻击的可能性。

关键设计:Blender框架的关键设计包括:1) 使用预训练的图像编码器(如ResNet)提取图像特征;2) 使用预训练的语言模型(如GPT)作为文本解码器,负责生成文本并执行劫持任务;3) 设计合适的损失函数,以平衡原始图像分类任务和劫持任务的性能。具体参数设置和网络结构的选择取决于具体的应用场景和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的Vera Verto框架在多模态劫持攻击中表现出色。例如,使用Sogou新闻数据集劫持STL10、CIFAR-10和MNIST分类器时,攻击成功率分别达到了94%、94%和95%。这些数据表明,该方法能够有效地将NLP任务植入图像分类模型,实现高成功率的劫持攻击。

🎯 应用场景

该研究成果可应用于评估和增强多模态机器学习系统的安全性。通过模拟多模态劫持攻击,可以发现模型潜在的脆弱性,并开发相应的防御机制。此外,该技术还可用于构建更安全的多模态模型,防止恶意用户利用跨模态漏洞进行攻击,保障AI系统的可靠运行。

📄 摘要(原文)

The increasing cost of training machine learning (ML) models has led to the inclusion of new parties to the training pipeline, such as users who contribute training data and companies that provide computing resources. This involvement of such new parties in the ML training process has introduced new attack surfaces for an adversary to exploit. A recent attack in this domain is the model hijacking attack, whereby an adversary hijacks a victim model to implement their own -- possibly malicious -- hijacking tasks. However, the scope of the model hijacking attack is so far limited to the homogeneous-modality tasks. In this paper, we transform the model hijacking attack into a more general multimodal setting, where the hijacking and original tasks are performed on data of different modalities. Specifically, we focus on the setting where an adversary implements a natural language processing (NLP) hijacking task into an image classification model. To mount the attack, we propose a novel encoder-decoder based framework, namely the Blender, which relies on advanced image and language models. Experimental results show that our modal hijacking attack achieves strong performances in different settings. For instance, our attack achieves 94%, 94%, and 95% attack success rate when using the Sogou news dataset to hijack STL10, CIFAR-10, and MNIST classifiers.