Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models
作者: Vyas Raina, Mark Gales
分类: cs.SD, cs.CL, eess.AS
发布日期: 2024-07-05 (更新: 2024-10-11)
💡 一句话要点
提出通用声学对抗攻击,控制语音基础模型行为
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音基础模型 对抗攻击 通用对抗扰动 语音识别 语音翻译
📋 核心要点
- 语音基础模型易受对抗攻击,攻击者无需访问模型提示即可改变模型行为。
- 通过在语音输入前添加精心设计的通用对抗声学片段,可操控模型执行指定任务。
- 实验证明,该方法能成功控制Whisper模型,使其执行翻译而非转录任务。
📝 摘要(中文)
语音使能的基础模型,无论是基于灵活的语音识别系统还是音频提示的大型语言模型(LLM),正变得越来越流行。这些模型的一个有趣的方面是,它们能够使用适当的提示执行自动语音识别(ASR)以外的任务。例如,OpenAI Whisper模型可以执行语音转录和语音翻译。随着音频提示LLM的发展,存在更大的控制选项的潜力。在这项工作中,我们证明了随着这种更大的灵活性,系统可能容易受到模型控制对抗攻击。在没有任何模型提示访问权限的情况下,可以通过适当地改变音频输入来修改系统的行为。为了说明这种风险,我们证明了可以将一个短的通用对抗声学片段添加到任何输入语音信号中,以覆盖ASR基础模型的提示设置。具体来说,我们成功地使用通用对抗声学片段来控制Whisper始终执行语音翻译,尽管它被设置为执行语音转录。总的来说,这项工作展示了一种针对多任务语音使能基础模型的新型对抗攻击,需要在部署这种形式的模型之前加以考虑。
🔬 方法详解
问题定义:论文旨在解决语音基础模型在多任务处理中,容易受到对抗攻击的问题。现有的语音基础模型,如Whisper,虽然功能强大,但缺乏对恶意音频输入的鲁棒性,攻击者可以通过构造对抗样本来改变模型的行为,例如强制模型执行错误的翻译任务。这种攻击方式不需要访问模型的内部参数或提示信息,增加了攻击的隐蔽性和危害性。
核心思路:论文的核心思路是利用通用对抗扰动(Universal Adversarial Perturbations, UAPs)的概念,生成一段短小的、与输入无关的对抗性音频片段。将该片段添加到任何语音输入之前,就能诱导模型产生预期的错误行为,而无需针对特定输入进行优化。这种方法类似于在图像识别领域中的对抗补丁,但应用于音频领域。
技术框架:该方法主要包含两个阶段:1) 生成通用对抗声学片段;2) 将该片段添加到目标语音输入,观察模型行为。生成对抗片段的过程通常涉及迭代优化,目标是最大化模型输出与预期输出之间的差异。整体流程简单明了,易于实现。
关键创新:该论文的关键创新在于将通用对抗扰动的概念应用于语音基础模型,并证明了可以通过添加一个短小的通用对抗声学片段来控制模型的行为。与传统的对抗攻击方法相比,该方法不需要针对每个输入样本进行单独优化,具有更高的效率和通用性。此外,该攻击方法不需要访问模型的提示信息,增加了攻击的隐蔽性。
关键设计:论文中对抗样本的生成通常使用梯度下降法,目标函数是衡量模型输出与目标输出之间的差异。例如,如果目标是使模型执行翻译任务而非转录任务,则目标函数可以是模型输出的翻译概率与转录概率之差。对抗片段的长度是一个重要的参数,需要根据模型的特性进行调整。此外,为了提高对抗片段的鲁棒性,可以采用一些正则化技术,例如添加噪声或进行平滑处理。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过添加一个短小的通用对抗声学片段,可以成功控制OpenAI Whisper模型,使其始终执行语音翻译,即使模型被设置为执行语音转录。该攻击方法不需要访问模型的提示信息,具有较高的隐蔽性和通用性。实验结果突出了语音基础模型在安全性方面存在的潜在风险。
🎯 应用场景
该研究揭示了语音基础模型在安全性方面存在的潜在风险,提醒开发者在部署此类模型时需要考虑对抗攻击的影响。研究成果可应用于开发更鲁棒的语音识别系统,例如通过对抗训练来提高模型对恶意音频输入的抵抗能力。此外,该研究也为评估和改进语音基础模型的安全性提供了新的思路。
📄 摘要(原文)
Speech enabled foundation models, either in the form of flexible speech recognition based systems or audio-prompted large language models (LLMs), are becoming increasingly popular. One of the interesting aspects of these models is their ability to perform tasks other than automatic speech recognition (ASR) using an appropriate prompt. For example, the OpenAI Whisper model can perform both speech transcription and speech translation. With the development of audio-prompted LLMs there is the potential for even greater control options. In this work we demonstrate that with this greater flexibility the systems can be susceptible to model-control adversarial attacks. Without any access to the model prompt it is possible to modify the behaviour of the system by appropriately changing the audio input. To illustrate this risk, we demonstrate that it is possible to prepend a short universal adversarial acoustic segment to any input speech signal to override the prompt setting of an ASR foundation model. Specifically, we successfully use a universal adversarial acoustic segment to control Whisper to always perform speech translation, despite being set to perform speech transcription. Overall, this work demonstrates a new form of adversarial attack on multi-tasking speech enabled foundation models that needs to be considered prior to the deployment of this form of model.