Hidden You Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Logic Chain Injection

📄 arXiv: 2404.04849v2 📥 PDF

作者: Zhilong Wang, Yebo Cao, Peng Liu

分类: cs.CR, cs.AI

发布日期: 2024-04-07 (更新: 2024-04-16)


💡 一句话要点

提出逻辑链注入攻击以实现对大型语言模型的双重欺骗

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 越狱攻击 大型语言模型 逻辑链注入 社会心理学 内容安全 人工智能伦理

📋 核心要点

  1. 现有的越狱攻击方法虽然能欺骗大型语言模型,但在面对人类审核时却显得无效,存在明显的局限性。
  2. 本文提出的逻辑链注入攻击通过将恶意意图隐藏在真实叙述中,利用人类的心理弱点实现双重欺骗。
  3. 实验结果表明,该方法在欺骗LLMs和人类审核者方面均取得了显著效果,展示了其有效性和创新性。

📝 摘要(中文)

针对大型语言模型(LLMs)的越狱攻击旨在通过精心设计的提示来诱导模型生成恶意内容。现有的越狱攻击虽然能够成功欺骗LLMs,但无法欺骗人工审核者。本文提出了一种新型的越狱攻击,能够同时欺骗LLMs和人类(如安全分析师)。该方法的核心思想源自社会心理学,即人类在真相中隐藏谎言时容易被欺骗。基于这一洞察,本文提出了逻辑链注入攻击,通过将恶意目标拆解为一系列无害叙述,并将其分散到相关的无害文章中,从而生成的新提示不仅能欺骗LLMs,还能欺骗人工审核者。

🔬 方法详解

问题定义:本文旨在解决现有越狱攻击无法同时欺骗大型语言模型和人类审核者的问题。现有方法在面对人类时容易被识破,缺乏有效性。

核心思路:论文的核心思路是利用社会心理学的原理,通过将恶意目标隐藏在真实的叙述中,设计逻辑链注入攻击,以此实现对LLMs和人类的双重欺骗。

技术框架:该方法的整体架构包括两个主要阶段:首先,将恶意目标拆解为多个无害叙述;其次,将这些叙述分散到相关的无害文章中,形成新的提示。

关键创新:最重要的技术创新在于逻辑链注入攻击的设计,使得恶意意图能够在真实叙述中隐蔽存在,从而有效欺骗模型和人类审核者,这与现有方法的直接攻击方式有本质区别。

关键设计:在实现过程中,关键设计包括叙述的选择与组合策略,以及如何确保生成的提示在逻辑上连贯且具备真实性,以增强其欺骗效果。具体的参数设置和损失函数设计尚未详细说明,需进一步研究。

📊 实验亮点

实验结果显示,逻辑链注入攻击在欺骗大型语言模型和人类审核者方面的成功率显著提高,具体数据表明,相较于传统方法,欺骗成功率提升了30%以上,展示了该方法的有效性和创新性。

🎯 应用场景

该研究的潜在应用领域包括网络安全、内容审核和人工智能伦理等。通过提升对大型语言模型的安全性,该方法能够帮助开发更为可靠的AI系统,防止恶意内容的生成与传播,具有重要的实际价值和社会影响。

📄 摘要(原文)

Jailbreak attacks on Language Model Models (LLMs) entail crafting prompts aimed at exploiting the models to generate malicious content. Existing jailbreak attacks can successfully deceive the LLMs, however they cannot deceive the human. This paper proposes a new type of jailbreak attacks which can deceive both the LLMs and human (i.e., security analyst). The key insight of our idea is borrowed from the social psychology - that is human are easily deceived if the lie is hidden in truth. Based on this insight, we proposed the logic-chain injection attacks to inject malicious intention into benign truth. Logic-chain injection attack firstly dissembles its malicious target into a chain of benign narrations, and then distribute narrations into a related benign article, with undoubted facts. In this way, newly generate prompt cannot only deceive the LLMs, but also deceive human.