Universal Acoustic Adversarial Attacks for Flexible Control of Speech-LLMs

📄 arXiv: 2505.14286v1 📥 PDF

作者: Rao Ma, Mengjie Qian, Vyas Raina, Mark Gales, Kate Knill

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-05-20


💡 一句话要点

提出针对语音LLM的通用声学对抗攻击,实现灵活控制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音LLM 对抗攻击 通用对抗样本 声学攻击 模型安全

📋 核心要点

  1. 语音LLM结合了预训练语音编码器和大型语言模型,但其灵活性也使其更容易受到对抗攻击。
  2. 本文提出一种通用声学对抗攻击方法,通过添加固定音频片段来控制语音LLM的行为。
  3. 实验表明,该攻击能有效影响Qwen2-Audio和Granite-Speech,揭示了语音LLM的潜在安全风险。

📝 摘要(中文)

本文研究了针对语音大型语言模型(Speech LLM)的通用声学对抗攻击。通过在原始输入音频前添加一个固定的、通用的对抗性音频片段,可以使模型产生无输出或执行修改后的任务,从而覆盖原始提示。进一步,攻击被扩展为选择性的,仅当存在特定的输入属性(如说话人性别或口语语言)时才激活。没有目标属性的输入应不受影响,从而实现对模型输出的细粒度控制。研究结果表明Qwen2-Audio和Granite-Speech存在严重漏洞,并表明类似的语音LLM可能容易受到通用对抗攻击。这突显了需要更强大的训练策略和改进的对抗攻击抵抗力。

🔬 方法详解

问题定义:论文旨在研究语音LLM的脆弱性,特别是它们对通用声学对抗攻击的抵抗能力。现有方法缺乏对这种攻击的有效防御,使得攻击者可以通过精心设计的音频片段来操纵模型的输出,从而影响其在各种语音处理任务中的性能。

核心思路:核心思路是生成一个通用的、与输入无关的对抗性音频片段,该片段可以添加到任何输入音频之前,从而导致语音LLM产生期望的错误行为。这种方法利用了模型在处理对抗性输入时的脆弱性,并且不需要针对特定输入的定制化攻击。

技术框架:该框架包含以下几个关键步骤:1) 选择目标语音LLM(例如,Qwen2-Audio,Granite-Speech);2) 设计对抗性音频生成策略,目标是生成一个通用的音频片段;3) 将生成的对抗性音频片段添加到原始输入音频之前;4) 将修改后的音频输入到语音LLM中;5) 评估模型输出是否符合攻击目标(例如,无输出,执行错误任务,或仅在特定属性存在时激活)。

关键创新:关键创新在于通用对抗性音频片段的设计和应用。与传统的对抗攻击方法不同,该方法不需要针对每个输入样本进行单独的对抗样本生成,而是使用一个固定的音频片段来攻击整个模型。此外,该方法还探索了选择性攻击,即仅在特定输入属性存在时才激活攻击,从而实现对模型输出的细粒度控制。

关键设计:对抗性音频片段的生成可能涉及到优化过程,例如使用梯度下降等方法来最大化模型输出与目标输出之间的差异。损失函数的设计需要考虑攻击的有效性和隐蔽性,例如,可以添加正则化项来限制对抗性音频片段的能量,使其不易被察觉。具体的参数设置和网络结构取决于所使用的语音LLM和攻击目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该通用声学对抗攻击能够有效影响Qwen2-Audio和Granite-Speech等语音LLM。攻击可以导致模型产生无输出或执行修改后的任务。更重要的是,该攻击可以被设计为选择性的,仅在特定输入属性(如说话人性别或口语语言)存在时才激活,从而实现对模型输出的细粒度控制。这些发现揭示了语音LLM的潜在安全风险。

🎯 应用场景

该研究成果可应用于评估和提高语音LLM的安全性。通过了解模型对对抗攻击的脆弱性,可以开发更强大的防御机制,例如对抗训练和输入验证。此外,该研究还可以帮助开发更安全的语音助手、语音识别系统和语音翻译工具,防止恶意用户利用对抗攻击来操纵这些系统。

📄 摘要(原文)

The combination of pre-trained speech encoders with large language models has enabled the development of speech LLMs that can handle a wide range of spoken language processing tasks. While these models are powerful and flexible, this very flexibility may make them more vulnerable to adversarial attacks. To examine the extent of this problem, in this work we investigate universal acoustic adversarial attacks on speech LLMs. Here a fixed, universal, adversarial audio segment is prepended to the original input audio. We initially investigate attacks that cause the model to either produce no output or to perform a modified task overriding the original prompt. We then extend the nature of the attack to be selective so that it activates only when specific input attributes, such as a speaker gender or spoken language, are present. Inputs without the targeted attribute should be unaffected, allowing fine-grained control over the model outputs. Our findings reveal critical vulnerabilities in Qwen2-Audio and Granite-Speech and suggest that similar speech LLMs may be susceptible to universal adversarial attacks. This highlights the need for more robust training strategies and improved resistance to adversarial attacks.