Dagger Behind Smile: Fool LLMs with a Happy Ending Story

📄 arXiv: 2501.13115v3 📥 PDF

作者: Xurui Song, Zhixin Xie, Shuo Huai, Jiayi Kong, Jun Luo

分类: cs.CL, cs.AI, cs.CR

发布日期: 2025-01-19 (更新: 2025-09-30)

备注: EMNLP 2025 Findings


💡 一句话要点

提出Happy Ending Attack,利用积极提示诱导大语言模型产生恶意内容

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 对抗性提示 快乐结局攻击 安全漏洞

📋 核心要点

  1. 现有越狱攻击方法效率低、泛化性差,或易被检测、交互复杂,难以有效利用大语言模型的漏洞。
  2. HEA的核心思想是利用LLMs对积极提示的敏感性,通过构造包含“快乐结局”的场景模板来诱导模型越狱。
  3. 实验证明HEA能有效越狱GPT-4o、Llama3-70b、Gemini-pro等先进LLMs,平均攻击成功率高达88.79%。

📝 摘要(中文)

大语言模型(LLMs)的广泛应用引起了对抗性攻击(即“越狱”)的极大关注,这些攻击通过优化或手动设计的对抗性提示,利用LLMs生成恶意内容。然而,基于优化的攻击效率和泛化能力有限,而现有的手动设计要么容易被检测到,要么需要与LLMs进行复杂的交互。本文首先指出了一种新的越狱攻击视角:LLMs对积极提示更敏感。基于此,我们部署了Happy Ending Attack(HEA),将恶意请求包装在一个包含积极提示的场景模板中,该模板主要通过“快乐结局”构成,从而诱使LLMs立即或在后续的恶意请求中进行越狱。这使得HEA既高效又有效,因为它只需要最多两轮即可完全越狱LLMs。大量实验表明,我们的HEA可以成功地越狱最先进的LLMs,包括GPT-4o、Llama3-70b、Gemini-pro,并平均达到88.79%的攻击成功率。我们还为HEA的成功提供了定量解释。

🔬 方法详解

问题定义:论文旨在解决现有大语言模型越狱攻击方法效率低、泛化性差、易被检测或交互复杂的问题。现有方法要么依赖于计算成本高的优化算法,要么需要人工精心设计提示,难以在不同模型间迁移,并且容易被防御机制检测到。因此,需要一种更高效、更通用的越狱攻击方法。

核心思路:论文的核心思路是利用大语言模型对积极提示的偏好。研究者发现,如果将恶意请求包装在一个看似积极、正面的情境中,LLM更容易忽略其中的恶意成分,从而产生有害内容。通过构造一个以“快乐结局”为特征的场景,可以有效地诱导LLM执行恶意任务。

技术框架:HEA攻击主要包含两个阶段:首先,构建一个包含积极提示的场景模板,该模板以一个看似无害的故事开头,并以“快乐结局”结尾。然后,将恶意请求巧妙地嵌入到这个场景中,或者在第一轮对话后,在第二轮对话中提出恶意请求。整个过程只需要最多两轮交互。

关键创新:HEA的关键创新在于其利用了LLM对积极提示的认知偏差。与传统的对抗性攻击方法不同,HEA不依赖于复杂的优化算法或人工设计的对抗性样本,而是通过构造一个看似无害的场景来诱导LLM产生恶意内容。这种方法更简单、更高效,并且具有更好的泛化能力。

关键设计:HEA的关键设计在于“快乐结局”的构造。研究者通过实验发现,一个积极、正面的结局能够有效地掩盖恶意请求,并提高攻击成功率。具体的实现方式包括使用积极的词汇、描述美好的场景,以及强调积极的后果。此外,恶意请求的嵌入方式也需要仔细设计,以避免引起LLM的警觉。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HEA在多种最先进的LLMs(包括GPT-4o、Llama3-70b、Gemini-pro)上均取得了显著的越狱效果,平均攻击成功率高达88.79%。这表明HEA是一种高效且通用的越狱攻击方法,能够有效地利用LLMs的认知偏差。

🎯 应用场景

该研究成果可用于评估和提高大语言模型的安全性,帮助开发者发现模型中潜在的漏洞,并开发更有效的防御机制。此外,该研究也提醒人们在使用LLM时需要保持警惕,避免受到恶意提示的诱导,从而保护个人信息和数据安全。该研究对于构建更安全、可靠的人工智能系统具有重要意义。

📄 摘要(原文)

The wide adoption of Large Language Models (LLMs) has attracted significant attention from $\textit{jailbreak}$ attacks, where adversarial prompts crafted through optimization or manual design exploit LLMs to generate malicious contents. However, optimization-based attacks have limited efficiency and transferability, while existing manual designs are either easily detectable or demand intricate interactions with LLMs. In this paper, we first point out a novel perspective for jailbreak attacks: LLMs are more responsive to $\textit{positive}$ prompts. Based on this, we deploy Happy Ending Attack (HEA) to wrap up a malicious request in a scenario template involving a positive prompt formed mainly via a $\textit{happy ending}$, it thus fools LLMs into jailbreaking either immediately or at a follow-up malicious request. This has made HEA both efficient and effective, as it requires only up to two turns to fully jailbreak LLMs. Extensive experiments show that our HEA can successfully jailbreak on state-of-the-art LLMs, including GPT-4o, Llama3-70b, Gemini-pro, and achieves 88.79% attack success rate on average. We also provide quantitative explanations for the success of HEA.