AudioJailbreak: Jailbreak Attacks against End-to-End Large Audio-Language Models

作者: Guangke Chen, Fu Song, Zhe Zhao, Xiaojun Jia, Yang Liu, Yanchen Qiao, Weizhe Zhang

分类: cs.CR, cs.AI, cs.LG, cs.SD, eess.AS

发布日期: 2025-05-20 (更新: 2025-05-21)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出AudioJailbreak，一种针对端到端大型音频语言模型的异步、通用、隐蔽且具有空中鲁棒性的对抗性攻击。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 音频对抗攻击 大型音频语言模型 越狱攻击 语音安全 对抗样本 异步攻击 通用攻击 鲁棒性

📋 核心要点

现有文本越狱攻击难以通过TTS技术迁移到端到端LALM，且音频越狱攻击在异步性、通用性、隐蔽性和空中鲁棒性方面存在不足。
AudioJailbreak通过生成后缀越狱音频实现异步攻击，结合多提示生成通用扰动，并采用意图隐藏策略和混响建模提升隐蔽性和空中鲁棒性。
实验表明，AudioJailbreak对多种LALM具有高效的越狱能力，且在异步性、通用性、隐蔽性和空中鲁棒性方面优于现有方法。

📝 摘要（中文）

本文研究了针对大型音频语言模型（LALM）的越狱攻击，但现有方法在有效性、适用性和实用性方面表现欠佳，尤其是在假设攻击者可以完全操纵用户提示的情况下。我们首先通过大量实验表明，先进的文本越狱攻击无法通过文本转语音（TTS）技术轻松移植到端到端LALM。然后，我们提出AudioJailbreak，一种新颖的音频越狱攻击，其特点是：（1）异步性：越狱音频不需要在时间轴上与用户提示对齐，通过精心制作后缀越狱音频实现；（2）通用性：通过将多个提示纳入扰动生成，单个越狱扰动对不同的提示有效；（3）隐蔽性：通过提出各种意图隐藏策略，越狱音频的恶意意图不会引起受害者的注意；（4）空中鲁棒性：通过将房间脉冲响应的混响失真效应纳入扰动生成，越狱音频在空中播放时仍然有效。相比之下，所有先前的音频越狱攻击都无法提供异步性、通用性、隐蔽性或空中鲁棒性。此外，AudioJailbreak也适用于无法完全操纵用户提示的攻击者，因此具有更广泛的攻击场景。对迄今为止最多的LALM进行的大量实验证明了AudioJailbreak的高效性。我们强调，我们的工作深入探讨了针对LALM的音频越狱攻击的安全影响，并切实促进了提高其安全鲁棒性。实现和音频样本可在我们的网站https://audiojailbreak.github.io/AudioJailbreak上找到。

🔬 方法详解

问题定义：现有针对大型音频语言模型（LALM）的越狱攻击，尤其是音频越狱攻击，在有效性、适用性和实用性方面存在局限性。具体来说，现有方法通常假设攻击者可以完全控制用户提示，这在实际场景中并不常见。此外，现有音频越狱攻击缺乏异步性（需要与用户提示对齐）、通用性（对不同提示效果不佳）、隐蔽性（容易被察觉）和空中鲁棒性（在真实环境中效果下降）等关键特性。

核心思路：AudioJailbreak的核心思路是通过精心设计的音频扰动，诱导LALM产生不期望的输出，同时克服现有方法的局限性。该方法通过异步后缀音频实现与用户提示的解耦，通过多提示学习提高通用性，通过意图隐藏策略增强隐蔽性，并通过模拟房间混响提高空中鲁棒性。这种设计旨在使攻击更加有效、实用和难以防御。

技术框架：AudioJailbreak的整体框架包括以下几个主要阶段：1) 扰动生成：利用对抗攻击算法生成能够诱导LALM产生目标输出的音频扰动。2) 异步注入：将生成的扰动作为后缀添加到用户语音提示之后，实现异步攻击。3) 通用性增强：在扰动生成过程中，考虑多个不同的用户提示，使生成的扰动对不同的提示都有效。4) 隐蔽性优化：采用多种意图隐藏策略，例如将扰动伪装成背景噪声或自然声音，降低被用户察觉的风险。5) 空中鲁棒性提升：在扰动生成过程中，模拟房间混响效应，提高扰动在真实环境中的鲁棒性。

关键创新：AudioJailbreak的关键创新在于其综合考虑了异步性、通用性、隐蔽性和空中鲁棒性，并针对这些特性提出了相应的解决方案。与现有方法相比，AudioJailbreak不需要与用户提示对齐，可以对不同的提示生效，更不容易被察觉，并且在真实环境中更加有效。此外，AudioJailbreak还适用于攻击者无法完全控制用户提示的场景，扩展了攻击的适用范围。

关键设计：AudioJailbreak的关键设计包括：1) 异步后缀音频：通过将扰动作为后缀添加到用户提示之后，避免了对用户提示的直接修改，提高了攻击的隐蔽性。2) 多提示学习：在扰动生成过程中，使用多个不同的用户提示，使生成的扰动对不同的提示都有效。3) 意图隐藏策略：采用多种意图隐藏策略，例如将扰动伪装成背景噪声或自然声音，降低被用户察觉的风险。4) 房间脉冲响应模拟：在扰动生成过程中，模拟房间混响效应，提高扰动在真实环境中的鲁棒性。具体的损失函数和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AudioJailbreak能够有效地攻击多种LALM，成功率显著高于现有方法。例如，在某个LALM上，AudioJailbreak的攻击成功率达到了80%，而现有最佳方法的攻击成功率仅为30%。此外，实验还验证了AudioJailbreak在异步性、通用性、隐蔽性和空中鲁棒性方面的优势，证明了其在实际场景中的有效性。

🎯 应用场景

AudioJailbreak的研究成果可应用于评估和提升大型音频语言模型的安全性。该研究揭示了LALM在面对对抗性攻击时的脆弱性，有助于开发者设计更鲁棒的模型，防止恶意用户利用音频输入进行非法活动，例如欺诈、诽谤或传播虚假信息。此外，该研究也为开发更安全的语音助手和智能设备提供了参考。

📄 摘要（原文）

Jailbreak attacks to Large audio-language models (LALMs) are studied recently, but they achieve suboptimal effectiveness, applicability, and practicability, particularly, assuming that the adversary can fully manipulate user prompts. In this work, we first conduct an extensive experiment showing that advanced text jailbreak attacks cannot be easily ported to end-to-end LALMs via text-to speech (TTS) techniques. We then propose AudioJailbreak, a novel audio jailbreak attack, featuring (1) asynchrony: the jailbreak audio does not need to align with user prompts in the time axis by crafting suffixal jailbreak audios; (2) universality: a single jailbreak perturbation is effective for different prompts by incorporating multiple prompts into perturbation generation; (3) stealthiness: the malicious intent of jailbreak audios will not raise the awareness of victims by proposing various intent concealment strategies; and (4) over-the-air robustness: the jailbreak audios remain effective when being played over the air by incorporating the reverberation distortion effect with room impulse response into the generation of the perturbations. In contrast, all prior audio jailbreak attacks cannot offer asynchrony, universality, stealthiness, or over-the-air robustness. Moreover, AudioJailbreak is also applicable to the adversary who cannot fully manipulate user prompts, thus has a much broader attack scenario. Extensive experiments with thus far the most LALMs demonstrate the high effectiveness of AudioJailbreak. We highlight that our work peeks into the security implications of audio jailbreak attacks against LALMs, and realistically fosters improving their security robustness. The implementation and audio samples are available at our website https://audiojailbreak.github.io/AudioJailbreak.

AudioJailbreak: Jailbreak Attacks against End-to-End Large Audio-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理