Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models

📄 arXiv: 2405.06134v2 📥 PDF

作者: Vyas Raina, Rao Ma, Charles McGhee, Kate Knill, Mark Gales

分类: cs.CL, cs.SD, eess.AS

发布日期: 2024-05-09 (更新: 2024-07-17)


💡 一句话要点

提出通用声学对抗攻击,使Whisper语音模型忽略语音内容

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 对抗攻击 语音安全 Whisper模型 声学对抗样本

📋 核心要点

  1. 大型语音模型如Whisper易受对抗攻击,攻击者可利用特殊token操纵模型行为。
  2. 论文提出学习特殊token的通用声学表示,前置于语音信号可使模型忽略语音。
  3. 实验证明该方法能有效“静音”Whisper模型,且具有跨数据集和任务的迁移性。

📝 摘要(中文)

本文揭示了大型语音基础模型(如Whisper)中存在的安全漏洞。这些模型使用特殊token(例如$ exttt{<|endoftext|>}$)来指导语言生成。研究表明,可以通过对抗攻击来利用这些token,从而操纵模型的行为。本文提出了一种简单而有效的方法,学习Whisper模型中$ exttt{<|endoftext|>}$ token的通用声学实现。当将此对抗音频片段添加到任何语音信号之前时,模型会忽略语音内容,仅转录特殊token,从而有效地“静音”模型。实验表明,对于超过97%的语音样本,一个通用的0.64秒对抗音频片段可以成功地使目标Whisper ASR模型静音。此外,该对抗音频片段通常可以迁移到新的数据集和任务中。这项工作展示了Whisper模型对“静音”对抗攻击的脆弱性,这种攻击在现实世界中既有风险也有潜在的好处:例如,该攻击可用于绕过语音审核系统,或者用于保护私人语音数据。

🔬 方法详解

问题定义:论文旨在解决语音基础模型(特别是Whisper)在对抗攻击下的脆弱性问题。现有的语音识别系统容易受到对抗样本的攻击,攻击者可以通过在语音信号中添加难以察觉的扰动,导致模型产生错误的转录结果。本文关注的是一种特殊的攻击方式,即“静音”攻击,目标是使模型完全忽略输入的语音内容,只输出特定的token。

核心思路:论文的核心思路是找到一个通用的、能够触发Whisper模型中特定行为(即忽略语音并输出$ exttt{<|endoftext|>}$ token)的声学对抗样本。通过学习$ exttt{<|endoftext|>}$ token的声学表示,并将其作为前缀添加到任何语音信号中,可以诱导模型产生预期的错误行为。这种方法的核心在于利用了模型对特殊token的敏感性。

技术框架:该方法主要包含以下几个步骤:1) 选择目标语音模型(Whisper);2) 确定要利用的特殊token($ exttt{<|endoftext|>}$);3) 通过优化算法(具体优化算法未知)学习该token的通用声学表示;4) 将学习到的对抗音频片段作为前缀添加到目标语音信号中;5) 评估攻击的成功率,即模型是否忽略语音并输出目标token。

关键创新:该论文的关键创新在于提出了一个简单而有效的通用声学对抗攻击方法,可以使Whisper模型忽略语音内容。与传统的对抗攻击方法不同,该方法不需要针对每个语音样本进行单独的优化,而是学习一个通用的对抗样本,可以应用于任何语音信号。此外,该方法利用了模型中存在的特殊token,从而实现了更有效的攻击。

关键设计:论文中提到对抗音频片段的长度为0.64秒,这是一个重要的设计参数。更长的片段可能会增加攻击的成功率,但也会增加被检测到的风险。具体的优化算法、损失函数、以及网络结构等技术细节在摘要中没有详细说明,属于未知信息。但可以推测,损失函数的设计目标是最小化对抗样本与$ exttt{<|endoftext|>}$ token的声学表示之间的距离,同时最大化模型输出该token的概率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,一个通用的0.64秒对抗音频片段可以成功地使目标Whisper ASR模型静音,成功率超过97%。更重要的是,该对抗音频片段具有良好的迁移性,可以有效地攻击新的数据集和任务,这表明Whisper模型对这种类型的攻击非常脆弱。

🎯 应用场景

该研究具有双重应用前景。一方面,攻击方法可用于评估和增强语音识别系统的安全性,例如用于测试语音审核系统的鲁棒性。另一方面,该攻击也可能被恶意利用,例如绕过语音验证系统或隐藏语音通信内容。因此,研究结果对于开发更安全的语音技术至关重要。

📄 摘要(原文)

Recent developments in large speech foundation models like Whisper have led to their widespread use in many automatic speech recognition (ASR) applications. These systems incorporate special tokens' in their vocabulary, such as $\texttt{<\|endoftext\|>}$, to guide their language generation process. However, we demonstrate that these tokens can be exploited by adversarial attacks to manipulate the model's behavior. We propose a simple yet effective method to learn a universal acoustic realization of Whisper's $\texttt{<\|endoftext\|>}$ token, which, when prepended to any speech signal, encourages the model to ignore the speech and only transcribe the special token, effectivelymuting' the model. Our experiments demonstrate that the same, universal 0.64-second adversarial audio segment can successfully mute a target Whisper ASR model for over 97\% of speech samples. Moreover, we find that this universal adversarial audio segment often transfers to new datasets and tasks. Overall this work demonstrates the vulnerability of Whisper models to `muting' adversarial attacks, where such attacks can pose both risks and potential benefits in real-world settings: for example the attack can be used to bypass speech moderation systems, or conversely the attack can also be used to protect private speech data.