Attributional Safety Failures in Large Language Models under Code-Mixed Perturbations

📄 arXiv: 2505.14469v2 📥 PDF

作者: Somnath Banerjee, Pratyush Chatterjee, Shanu Kumar, Sayan Layek, Parag Agrawal, Rima Hazra, Animesh Mukherjee

分类: cs.CL, cs.AI

发布日期: 2025-05-20 (更新: 2025-11-30)


💡 一句话要点

揭示代码混合扰动下大语言模型归因安全性失效问题,并提出修复策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 代码混合 安全性 归因分析 显著性漂移 多语言 对抗攻击 翻译恢复

📋 核心要点

  1. 现有大语言模型在英语环境下的安全性对齐存在漏洞,代码混合攻击能有效绕过安全防护。
  2. 论文提出显著性漂移归因(SDA)框架,用于分析代码混合攻击下模型注意力的偏移现象。
  3. 提出基于翻译的恢复策略,可有效恢复代码混合攻击造成的安全性损失,提升模型鲁棒性。

📝 摘要(中文)

本文揭示了大语言模型(LLM)在英语环境下看似稳健的安全性对齐,存在一个被忽视的严重弱点:在代码混合扰动下的归因崩溃。对开源模型的系统评估表明,代码混合(即在单个对话中混合使用多种语言)的语言伪装会导致安全防护机制显著失效。攻击成功率(ASR)从单语英语的9%飙升至代码混合输入的69%,在阿拉伯语和印地语等非西方语境中甚至超过90%。这些影响不仅存在于受控的合成数据集上,也存在于真实的社交媒体痕迹中,揭示了数十亿用户的严重风险。为了解释这种现象,本文引入了显著性漂移归因(SDA),这是一种可解释性框架,展示了在代码混合下,模型的内部注意力如何从安全关键token(例如“暴力”或“腐败”)转移,从而有效地使其对有害意图视而不见。最后,本文提出了一种轻量级的基于翻译的恢复策略,该策略可以恢复因代码混合而损失的约80%的安全性,为实现更公平和稳健的LLM安全性提供了一条切实可行的途径。

🔬 方法详解

问题定义:论文旨在解决大语言模型在代码混合扰动下的安全性失效问题。现有方法主要针对单语环境进行安全对齐,忽略了多语言混合场景下的潜在风险。代码混合攻击利用语言的复杂性,使得模型难以识别有害内容,导致安全防护机制失效。

核心思路:论文的核心思路是分析代码混合如何影响模型的注意力机制,导致其无法正确识别安全相关的token。通过引入显著性漂移归因(SDA)框架,量化模型注意力从关键token的偏移程度。基于此,提出一种基于翻译的恢复策略,将代码混合输入翻译回英文,从而恢复模型的安全识别能力。

技术框架:论文的技术框架主要包含三个部分:1) 代码混合攻击生成模块,用于生成包含多种语言的恶意输入;2) 显著性漂移归因(SDA)分析模块,用于分析模型在代码混合输入下的注意力分布变化;3) 基于翻译的恢复模块,用于将代码混合输入翻译回英文,并重新输入模型进行安全评估。

关键创新:论文最重要的技术创新点在于提出了显著性漂移归因(SDA)框架。SDA能够量化代码混合对模型注意力的影响,揭示了模型安全性失效的根本原因。此外,基于翻译的恢复策略也提供了一种简单有效的解决方案,能够在不重新训练模型的情况下,显著提升模型在代码混合环境下的安全性。

关键设计:SDA框架通过计算模型在原始英文输入和代码混合输入下的注意力分布差异,来衡量显著性漂移。具体而言,首先计算模型对每个token的注意力权重,然后计算原始英文输入和代码混合输入下,安全相关token的注意力权重差异。基于翻译的恢复策略,使用了现成的机器翻译模型,将代码混合输入翻译回英文。实验中,使用了多种开源大语言模型,并针对不同的代码混合策略进行了评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,代码混合攻击能显著降低大语言模型的安全性,攻击成功率从单语英语的9%飙升至代码混合输入的69%,在非西方语境中甚至超过90%。提出的基于翻译的恢复策略能够恢复约80%的安全性损失,显著提升模型在代码混合环境下的鲁棒性。

🎯 应用场景

该研究成果可应用于提升大语言模型在多语言环境下的安全性,尤其是在社交媒体内容审核、智能客服等领域。通过识别并缓解代码混合攻击,可以有效防止恶意信息传播,保护用户免受有害内容的影响。未来的研究可以探索更复杂的代码混合模式和更有效的防御策略。

📄 摘要(原文)

While LLMs appear robustly safety-aligned in English, we uncover a catastrophic, overlooked weakness: attributional collapse under code-mixed perturbations. Our systematic evaluation of open models shows that the linguistic camouflage of code-mixing -- blending languages within a single conversation'' -- can cause safety guardrails to fail dramatically. Attack success rates (ASR) spike from a benign 9\% in monolingual English to 69\% under code-mixed inputs, with rates exceeding 90\% in non-Western contexts such as Arabic and Hindi. These effects hold not only on controlled synthetic datasets but also on real-world social media traces, revealing a serious risk for billions of users. To explain why this happens, we introduce saliency drift attribution (SDA), an interpretability framework that shows how, under code-mixing, the model's internal attention drifts away from safety-critical tokens (e.g.,violence'' or ``corruption''), effectively blinding it to harmful intent. Finally, we propose a lightweight translation-based restoration strategy that recovers roughly 80\% of the safety lost to code-mixing, offering a practical path toward more equitable and robust LLM safety.