from Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors

📄 arXiv: 2503.00038v4 📥 PDF

作者: Yu Yan, Sheng Sun, Zenghao Duan, Teli Liu, Min Liu, Zhiyi Yin, Jiangyu Lei, Qi Li

分类: cs.CL, cs.AI, cs.CR

发布日期: 2025-02-25 (更新: 2025-08-22)

备注: arXiv admin note: substantial text overlap with arXiv:2412.12145

DOI: 10.18653/v1/2025.acl-long.238


💡 一句话要点

提出AVATAR框架,利用对抗隐喻诱导大语言模型越狱

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 对抗隐喻 安全性评估 恶意内容生成

📋 核心要点

  1. 现有越狱攻击研究忽略了直接生成有害内容的高难度,诱导LLM从良性内容生成有害内容更具可行性。
  2. AVATAR框架利用良性但相关的隐喻作为种子,诱导LLM推理和校准隐喻内容,从而实现越狱。
  3. 实验表明,AVATAR在多个LLM上实现了最先进的攻击成功率,证明了其有效性和可迁移性。

📝 摘要(中文)

当前研究已经揭示了大型语言模型(LLMs)通过越狱攻击生成有害内容的风险。然而,它们忽略了从零开始直接生成有害内容比诱导LLM将良性内容校准为有害形式更为困难。在本研究中,我们引入了一种新颖的攻击框架,该框架利用对抗隐喻(AVATAR)来诱导LLM校准恶意隐喻以进行越狱。具体来说,为了回答有害查询,AVATAR自适应地识别一组良性但逻辑相关的隐喻作为初始种子。然后,在这些隐喻的驱动下,目标LLM被诱导去推理和校准隐喻内容,从而通过直接输出有害响应或校准隐喻内容和专业有害内容之间的残差来进行越狱。实验结果表明,AVATAR可以有效且可迁移地越狱LLM,并在多个先进LLM上实现最先进的攻击成功率。

🔬 方法详解

问题定义:现有的大语言模型越狱攻击方法通常直接尝试生成有害内容,但这种方式难度较高。论文关注如何更有效地诱导LLM生成有害内容,特别是通过利用LLM在理解和生成隐喻方面的能力。现有方法的痛点在于,直接攻击难以绕过LLM的安全机制,且攻击成功率较低。

核心思路:论文的核心思路是利用对抗隐喻(AdVersArial meTAphoR,AVATAR)来诱导LLM生成有害内容。其基本思想是,先找到与有害查询相关的良性隐喻,然后利用这些隐喻作为种子,引导LLM逐步校准和推理,最终生成有害内容。这种间接攻击方式可以绕过LLM的安全机制,提高攻击成功率。

技术框架:AVATAR框架主要包含以下几个阶段:1) 隐喻种子生成:针对给定的有害查询,自适应地识别一组良性但逻辑相关的隐喻作为初始种子。2) 隐喻校准:利用这些隐喻作为输入,诱导目标LLM进行推理和校准,使其逐步生成与有害查询相关的隐喻内容。3) 有害内容生成:通过直接输出有害响应或校准隐喻内容和专业有害内容之间的残差,最终实现越狱。整个框架旨在通过隐喻的桥梁,将LLM从良性状态引导到有害状态。

关键创新:该论文的关键创新在于提出了利用对抗隐喻进行LLM越狱攻击的思想。与直接攻击相比,AVATAR框架通过隐喻的间接引导,降低了攻击的难度,提高了攻击的成功率。此外,AVATAR框架具有自适应性,可以根据不同的有害查询,自动生成合适的隐喻种子。

关键设计:论文中关于隐喻种子的选择和校准过程的具体实现细节未知。但是,可以推测,隐喻种子的选择需要保证其与有害查询在语义上具有一定的相关性,同时又不能过于直接地暴露有害意图。隐喻校准过程可能涉及到一些损失函数的设计,以鼓励LLM生成与有害查询相关的隐喻内容,并逐步逼近最终的有害目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AVATAR框架可以有效且可迁移地越狱多个先进的LLM,并在攻击成功率方面取得了最先进的水平。具体的性能数据和对比基线未知,但摘要强调了其在多个LLM上的优越表现,证明了该方法的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性。通过AVATAR框架,可以更有效地发现LLM的安全漏洞,并针对性地进行防御。此外,该研究还可以促进对LLM隐喻理解能力的深入研究,为开发更安全、更可靠的LLM提供理论指导。

📄 摘要(原文)

Current studies have exposed the risk of Large Language Models (LLMs) generating harmful content by jailbreak attacks. However, they overlook that the direct generation of harmful content from scratch is more difficult than inducing LLM to calibrate benign content into harmful forms. In our study, we introduce a novel attack framework that exploits AdVersArial meTAphoR (AVATAR) to induce the LLM to calibrate malicious metaphors for jailbreaking. Specifically, to answer harmful queries, AVATAR adaptively identifies a set of benign but logically related metaphors as the initial seed. Then, driven by these metaphors, the target LLM is induced to reason and calibrate about the metaphorical content, thus jailbroken by either directly outputting harmful responses or calibrating residuals between metaphorical and professional harmful content. Experimental results demonstrate that AVATAR can effectively and transferable jailbreak LLMs and achieve a state-of-the-art attack success rate across multiple advanced LLMs.