Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection
作者: Meng Chen, Kun Wang, Li Lu, Jiaheng Zhang, Tianwei Zhang
分类: cs.CR, cs.AI, cs.SD
发布日期: 2026-04-16
备注: Accepted by IEEE S&P 2026
💡 一句话要点
提出AudioHijack框架,实现对大型语音语言模型在不可察觉的音频提示注入攻击
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 语音语言模型 音频提示注入 对抗性攻击 安全性 语音助手
📋 核心要点
- 现有语音语言模型存在音频提示注入的安全漏洞,攻击者可以通过恶意音频操纵模型行为。
- AudioHijack框架通过生成上下文无关且难以察觉的对抗性音频,实现对语音语言模型的劫持。
- 实验表明,AudioHijack能有效攻击多种语音模型,成功率高达96%,并能诱导商业语音助手执行未授权操作。
📝 摘要(中文)
现代大型语音语言模型(LALMs)通过紧密集成音频和文本来实现智能语音交互。然而,这种集成扩展了攻击面,并在连续、高维的音频通道中引入了漏洞。虽然之前的工作研究了音频越狱,但恶意音频注入和下游行为操纵的安全风险仍未得到充分研究。本文揭示了一种先前被忽视的威胁,即音频提示注入,它在仅音频数据访问和强感知隐身性的现实约束下进行。为了系统地分析这种威胁,我们提出了AudioHijack,这是一个通用框架,用于生成与上下文无关且难以察觉的对抗性音频来劫持LALM。AudioHijack采用基于采样的梯度估计,用于跨不同模型的端到端优化,绕过不可微的音频标记化。通过注意力监督和多上下文训练,它引导模型注意力转向对抗性音频,并推广到未见过的用户上下文。我们还设计了一种卷积混合方法,将扰动调制到自然混响中,使其对用户来说高度难以察觉。对13个最先进的LALM的广泛实验表明,在6个不良行为类别中实现了持续的劫持,在未见过的用户上下文中实现了79%-96%的平均成功率,并具有高声学保真度。真实世界的研究表明,来自Mistral AI和Microsoft Azure的商业语音代理可以被诱导代表用户执行未经授权的操作。这些发现暴露了LALM中的关键漏洞,并强调了对专用防御的迫切需求。
🔬 方法详解
问题定义:现有的大型语音语言模型(LALMs)容易受到恶意音频注入攻击,攻击者可以通过构造特定的音频输入,诱导模型产生不期望的行为,例如执行未授权操作。现有的音频越狱方法通常依赖于可感知的扰动,容易被用户发现,并且缺乏对上下文无关性和泛化性的考虑。因此,如何设计一种在音频数据访问受限且具有强感知隐身性的条件下,能够有效劫持LALM的音频提示注入方法是一个关键问题。
核心思路:AudioHijack的核心思路是生成与上下文无关且难以察觉的对抗性音频,通过操纵模型的注意力机制,使其将注意力集中在对抗性音频上,从而实现对模型的劫持。该方法通过采样梯度估计绕过不可微的音频标记化,并采用注意力监督和多上下文训练来提高模型的泛化能力。此外,通过卷积混合方法将扰动调制到自然混响中,增强了对抗性音频的感知隐身性。
技术框架:AudioHijack框架主要包含以下几个模块:1) 对抗性音频生成模块:该模块负责生成能够劫持LALM的对抗性音频。2) 注意力监督模块:该模块通过监督模型的注意力分布,引导模型将注意力集中在对抗性音频上。3) 多上下文训练模块:该模块通过在不同的用户上下文下训练模型,提高模型的泛化能力。4) 卷积混合模块:该模块将对抗性扰动调制到自然混响中,增强对抗性音频的感知隐身性。
关键创新:AudioHijack的关键创新在于:1) 提出了一种上下文无关且难以察觉的音频提示注入攻击方法,能够有效劫持LALM。2) 采用基于采样的梯度估计方法,绕过了不可微的音频标记化。3) 设计了一种卷积混合方法,将对抗性扰动调制到自然混响中,增强了对抗性音频的感知隐身性。与现有方法相比,AudioHijack能够在更严格的约束条件下实现对LALM的有效攻击。
关键设计:AudioHijack的关键设计包括:1) 损失函数的设计:损失函数用于衡量对抗性音频的攻击效果和感知隐身性,通常包括攻击损失和感知损失。2) 注意力监督策略:通过最小化对抗性音频和目标音频的注意力分布差异,引导模型将注意力集中在对抗性音频上。3) 卷积混合方法:通过卷积操作将对抗性扰动调制到自然混响中,增强对抗性音频的感知隐身性。4) 多上下文训练策略:通过在不同的用户上下文下训练模型,提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AudioHijack框架在13个最先进的LALM上实现了持续的劫持,在6个不良行为类别中,对未见过的用户上下文实现了79%-96%的平均攻击成功率,同时保持了高声学保真度。真实世界的研究还表明,来自Mistral AI和Microsoft Azure的商业语音代理可以被诱导代表用户执行未经授权的操作,验证了该方法的有效性和实际威胁。
🎯 应用场景
该研究成果可应用于评估和提升语音助手、智能音箱等语音交互系统的安全性。通过模拟对抗性攻击,可以发现并修复LALM中的潜在漏洞,提高系统的鲁棒性和安全性,防止恶意用户利用音频提示注入进行非法操作,保障用户隐私和数据安全。该研究也为未来语音安全防御技术的发展提供了新的思路。
📄 摘要(原文)
Modern Large audio-language models (LALMs) power intelligent voice interactions by tightly integrating audio and text. This integration, however, expands the attack surface beyond text and introduces vulnerabilities in the continuous, high-dimensional audio channel. While prior work studied audio jailbreaks, the security risks of malicious audio injection and downstream behavior manipulation remain underexamined. In this work, we reveal a previously overlooked threat, auditory prompt injection, under realistic constraints of audio data-only access and strong perceptual stealth. To systematically analyze this threat, we propose \textit{AudioHijack}, a general framework that generates context-agnostic and imperceptible adversarial audio to hijack LALMs. \textit{AudioHijack} employs sampling-based gradient estimation for end-to-end optimization across diverse models, bypassing non-differentiable audio tokenization. Through attention supervision and multi-context training, it steers model attention toward adversarial audio and generalizes to unseen user contexts. We also design a convolutional blending method that modulates perturbations into natural reverberation, making them highly imperceptible to users. Extensive experiments on 13 state-of-the-art LALMs show consistent hijacking across 6 misbehavior categories, achieving average success rates of 79\%-96\% on unseen user contexts with high acoustic fidelity. Real-world studies demonstrate that commercial voice agents from Mistral AI and Microsoft Azure can be induced to execute unauthorized actions on behalf of users. These findings expose critical vulnerabilities in LALMs and highlight the urgent need for dedicated defense.