On Optimizing Multimodal Jailbreaks for Spoken Language Models

作者: Aravind Krishnan, Karolina Stańczak, Dietrich Klakow

分类: cs.LG

发布日期: 2026-03-19

备注: Under Review at INTERSPEECH 2026

💡 一句话要点

提出JAMA：一种联合优化文本和音频的多模态语音语言模型越狱攻击方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音语言模型 多模态攻击 越狱攻击 对抗性扰动 文本攻击 音频攻击 安全性评估

📋 核心要点

语音语言模型面临新的安全挑战，现有攻击主要集中于单模态，忽略了多模态联合攻击的可能性。
提出JAMA框架，通过联合优化文本和音频的对抗性扰动，实现更有效的多模态越狱攻击。
实验表明，JAMA在多个SLM上显著优于单模态攻击，越狱率提升高达10倍，并分析了其运行效率。

📝 摘要（中文）

随着语音语言模型（SLM）整合语音和文本模态，它们继承了LLM的安全漏洞和扩大的攻击面。先前的研究表明，SLM容易受到越狱攻击，即对抗性提示诱导有害响应。然而，现有的攻击主要保持单模态，孤立地优化文本或音频。本文探索了基于梯度的多模态越狱攻击，引入了JAMA（Joint Audio-text Multimodal Attack），这是一个联合多模态优化框架，结合了用于文本的贪婪坐标梯度（GCG）和用于音频的投影梯度下降（PGD），以同时扰动两种模态。在四个最先进的SLM和四种音频类型上的评估表明，JAMA的越狱率超过单模态攻击的1.5倍至10倍。分析了这种联合攻击的运行动态，并表明顺序近似方法使其速度提高了4倍至6倍。研究结果表明，单模态安全性不足以保证SLM的鲁棒性。代码和数据可在https://repos.lsv.uni-saarland.de/akrishnan/multimodal-jailbreak-slm获取。

🔬 方法详解

问题定义：现有的语音语言模型（SLM）越狱攻击主要集中在单模态上，即单独优化文本或音频输入。这种方法忽略了两种模态之间的相互作用，可能无法充分利用SLM的漏洞。因此，需要一种能够同时考虑文本和音频模态的联合攻击方法，以更有效地诱导SLM产生有害响应。

核心思路：JAMA的核心思路是同时对文本和音频模态进行对抗性扰动，以最大化SLM产生有害响应的可能性。通过联合优化两种模态的扰动，JAMA能够发现单模态攻击难以发现的漏洞，从而实现更高的越狱率。这种联合优化考虑了两种模态之间的相互依赖关系，使得攻击更加有效。

技术框架：JAMA框架包含两个主要模块：文本扰动模块和音频扰动模块。文本扰动模块采用贪婪坐标梯度（GCG）算法，该算法通过迭代地修改文本中的字符来寻找对抗性提示。音频扰动模块采用投影梯度下降（PGD）算法，该算法通过在音频信号中添加微小的扰动来改变其语义。这两个模块同时运行，并共享梯度信息，以实现联合优化。

关键创新：JAMA的关键创新在于其联合多模态优化方法。与现有的单模态攻击相比，JAMA能够同时利用文本和音频模态的漏洞，从而实现更高的越狱率。此外，JAMA还提出了一种顺序近似方法，可以显著提高攻击的效率，使其能够在更短的时间内找到有效的对抗性提示。

关键设计：文本扰动模块使用GCG算法，每次迭代选择一个字符进行修改，并评估修改后的文本对SLM输出的影响。音频扰动模块使用PGD算法，通过计算损失函数关于音频信号的梯度，并在梯度方向上添加微小的扰动。为了提高效率，JAMA采用了一种顺序近似方法，即先对文本进行扰动，然后对音频进行扰动，交替进行，直到达到预定的迭代次数或越狱成功。

🖼️ 关键图片

📊 实验亮点

实验结果表明，JAMA在四个最先进的SLM上显著优于单模态攻击，越狱率提升了1.5倍至10倍。此外，顺序近似方法使JAMA的攻击速度提高了4倍至6倍，使其更具实用性。这些结果表明，多模态联合攻击是SLM安全的一个重要威胁，需要引起重视。

🎯 应用场景

该研究成果可应用于评估和提高语音语言模型的安全性。通过使用JAMA等攻击方法，可以发现SLM中潜在的漏洞，并开发相应的防御机制。此外，该研究还可以促进多模态安全领域的发展，为构建更安全可靠的人工智能系统提供指导。

📄 摘要（原文）

As Spoken Language Models (SLMs) integrate speech and text modalities, they inherit the safety vulnerabilities of their LLM backbone and an expanded attack surface. SLMs have been previously shown to be susceptible to jailbreaking, where adversarial prompts induce harmful responses. Yet existing attacks largely remain unimodal, optimizing either text or audio in isolation. We explore gradient-based multimodal jailbreaks by introducing JAMA (Joint Audio-text Multimodal Attack), a joint multimodal optimization framework combining Greedy Coordinate Gradient (GCG) for text and Projected Gradient Descent (PGD) for audio, to simultaneously perturb both modalities. Evaluations across four state-of-the-art SLMs and four audio types demonstrate that JAMA surpasses unimodal jailbreak rate by 1.5x to 10x. We analyze the operational dynamics of this joint attack and show that a sequential approximation method makes it 4x to 6x faster. Our findings suggest that unimodal safety is insufficient for robust SLMs. The code and data are available at https://repos.lsv.uni-saarland.de/akrishnan/multimodal-jailbreak-slm

On Optimizing Multimodal Jailbreaks for Spoken Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理