Metaphor Is Not All Attention Needs
作者: Olga Sorokoletova, Francesco Giarrusso, Giacomo De Luca, Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Marcello Galisai, Vincenzo Suriani, Daniele Nardi
分类: cs.CL, cs.CY
发布日期: 2026-05-12
💡 一句话要点
诗意越狱并非仅依赖注意力机制,而是源于风格不规则性对LLM处理方式的改变
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 注意力机制 可解释性分析 风格迁移 安全机制 鲁棒性 Qwen3-14B
📋 核心要点
- 现有大型语言模型在安全应用中易受诗意等风格转换的攻击,表明其安全机制存在漏洞。
- 通过分析注意力模式,研究诗意越狱的成功原因,探究其与特定诗歌手段和格式识别的关系。
- 实验表明,模型能区分诗歌和散文,但越狱成功与否与格式识别无关,而是风格不规则性导致。
📝 摘要(中文)
大型语言模型越来越多地应用于安全关键型应用中,其抵抗有害指令的能力至关重要。尽管事后训练旨在使模型能够抵抗许多越狱策略,但最近的证据表明,诸如诗意转换等风格上的重新表述仍然可以惊人地有效地绕过安全机制。这提出了一个核心问题:为什么文学越狱会成功?在这项工作中,我们研究了它们的有效性是否取决于特定的诗歌手段,是否取决于未能识别文学格式,或者是否取决于模型处理风格不规则提示的方式的更深层次的变化。我们通过对注意力模式的可解释性分析来解决这个问题。我们执行输入级别的消融研究,以评估单个和组合的诗歌手段的贡献;构建注意力图的可解释向量表示;聚类这些表示并训练线性探针来预测安全结果和文学格式。我们的结果表明,模型能够以高精度区分诗歌和散文格式,但难以预测每种格式中的越狱成功率。聚类进一步揭示了按文学格式的清晰分离,而不是按安全标签的分离。这些发现表明,越狱的成功并非由于未能识别诗歌格式;相反,诗意的提示会诱导不同的处理模式,而这些模式在很大程度上独立于有害内容检测。总的来说,文学越狱似乎并非通过任何单一的诗歌手段来使大型语言模型错位,而是通过累积的风格不规则性来改变提示处理并避免事后训练中考虑的词汇触发因素。这表明,鲁棒性需要考虑风格引起的模型行为变化的安全性机制。我们使用 Qwen3-14B 作为代表性的开源权重案例研究。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在面对诗意等文学风格的“越狱”攻击时表现出的脆弱性问题。现有的安全机制在对抗此类攻击时效果不佳,原因在于它们主要依赖于词汇触发器,而忽略了风格变化对模型处理方式的影响。这种忽略导致模型在处理风格不规则的提示时,无法有效识别和阻止有害内容。
核心思路:论文的核心思路是,诗意越狱的成功并非源于模型无法识别诗歌格式或特定诗歌手段,而是由于诗歌风格中累积的不规则性改变了模型处理提示的方式。这种改变使得模型偏离了其在安全训练中学习到的行为模式,从而绕过了安全机制。因此,要提高模型的鲁棒性,需要考虑风格变化对模型行为的影响,并设计相应的安全机制。
技术框架:论文采用了一种基于可解释性分析的框架来研究诗意越狱。该框架包括以下几个主要步骤:1) 输入级别的消融研究,用于评估不同诗歌手段对越狱成功的影响;2) 构建注意力图的可解释向量表示,用于捕捉模型在处理不同风格提示时的注意力模式;3) 对这些表示进行聚类,以观察模型是否能区分不同的文学格式和安全标签;4) 训练线性探针,用于预测安全结果和文学格式。通过这些步骤,论文旨在揭示诗意越狱背后的机制。
关键创新:论文最重要的技术创新点在于,它将注意力模式的可解释性分析应用于研究LLM的越狱问题,并发现诗意越狱的成功并非源于单一的诗歌手段或格式识别失败,而是源于累积的风格不规则性。这一发现挑战了以往对越狱攻击的理解,并为设计更有效的安全机制提供了新的思路。与现有方法相比,该论文更加关注风格变化对模型行为的影响,而不仅仅是词汇触发器。
关键设计:论文的关键设计包括:1) 使用Qwen3-14B作为案例研究对象,因为它是一个具有代表性的开源权重模型;2) 设计了一系列诗意提示,用于触发模型的越狱行为;3) 使用注意力图的可解释向量表示来捕捉模型在处理不同提示时的注意力模式;4) 使用聚类和线性探针等技术来分析这些注意力模式,并预测安全结果和文学格式。这些设计使得论文能够深入研究诗意越狱的机制,并为设计更有效的安全机制提供依据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,模型能够以高精度区分诗歌和散文格式,但难以预测每种格式中的越狱成功率。聚类分析显示,模型能够清晰地按文学格式进行分离,但无法按安全标签进行分离。这些结果表明,诗意越狱的成功并非由于模型无法识别诗歌格式,而是由于诗意的提示诱导了不同的处理模式,而这些模式在很大程度上独立于有害内容检测。
🎯 应用场景
该研究成果可应用于提升大型语言模型在安全关键领域的鲁棒性,例如在医疗、金融等领域,防止模型被恶意利用进行有害行为。通过理解风格变化对模型行为的影响,可以开发出更有效的安全机制,从而提高LLM在实际应用中的可靠性和安全性。
📄 摘要(原文)
Large language models are increasingly deployed in safety-critical applications, where their ability to resist harmful instructions is essential. Although post-training aims to make models robust against many jailbreak strategies, recent evidence shows that stylistic reformulations, such as poetic transformation, can still bypass safety mechanisms with alarming effectiveness. This raises a central question: why do literary jailbreaks succeed? In this work, we investigate whether their effectiveness depends on specific poetic devices, on a failure to recognize literary formatting, or on deeper changes in how models process stylistically irregular prompts. We address this problem through an interpretability analysis of attention patterns. We perform input-level ablation studies to assess the contribution of individual and combinations of poetic devices; construct an interpretable vector representation of attention maps; cluster these representations and train linear probes to predict safety outcomes and literary format. Our results show that models distinguish poetic from prose formats with high accuracy, yet struggle to predict jailbreak success within each format. Clustering further reveals clear separation by literary format, but not by safety label. These findings indicate that jailbreak success is not caused by a failure to recognize poetic formatting; rather, poetic prompts induce distinct processing patterns that remain largely independent of harmful-content detection. Overall, literary jailbreaks appear to misalign large language models not through any single poetic device, but through accumulated stylistic irregularities that alter prompt processing and avoid lexical triggers considered during post-training. This suggests that robustness requires safety mechanisms that account for style-induced shifts in model behavior. We use Qwen3-14B as a representative open-weight case study.