Poisoned LangChain: Jailbreak LLMs by LangChain

📄 arXiv: 2406.18122v1 📥 PDF

作者: Ziqiu Wang, Jun Liu, Shengkai Zhang, Yang Yang

分类: cs.CL, cs.AI

发布日期: 2024-06-26

备注: 6 pages,2 figures,This paper is a submission to ACM TURC. It has been accepted by the editor of the organizer


💡 一句话要点

提出 Poisoned-LangChain,通过恶意知识库实现对LLM的间接越狱攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 检索增强生成 LangChain 知识库污染 安全漏洞 间接攻击

📋 核心要点

  1. 现有直接越狱攻击对具有强大过滤能力的大模型效果不佳,难以适应LLM实时更新知识的需求。
  2. 提出Poisoned-LangChain (PLC),通过RAG引入恶意知识库,诱导LLM生成不合规内容,实现间接越狱。
  3. 在六种LLM上进行实验,针对三类越狱问题,PLC在不同场景下成功率分别达到88.56%、79.04%和82.69%。

📝 摘要(中文)

随着自然语言处理的发展,大型语言模型(LLM)日益普及。LLM越来越多地融入日常生活,引发了公众对其安全漏洞的担忧。因此,大型语言模型的安全性变得至关重要。目前,攻击和防御LLM的技术不断发展。其中一种重要的攻击方法是越狱攻击,旨在规避模型的安全机制,诱导生成不适当的内容。现有的越狱攻击主要依赖于精心设计的诱导提示进行直接越狱,但对于具有强大过滤和高理解能力的大型模型效果不佳。鉴于大型语言模型对实时能力的需求不断增长,实时更新和迭代新知识变得至关重要。检索增强生成(RAG)是一种弥补模型缺乏新知识的先进技术,正逐渐成为主流。由于RAG使模型能够利用外部知识库,因此为越狱攻击提供了一条新途径。本文首次提出了间接越狱的概念,并通过LangChain实现检索增强生成。在此基础上,我们进一步设计了一种新颖的间接越狱攻击方法,称为Poisoned-LangChain(PLC),它利用中毒的外部知识库与大型语言模型交互,从而导致大型模型生成恶意的、不合规的对话。我们在六种不同的大型语言模型上,针对三大类越狱问题测试了该方法。实验表明,PLC成功地在三种不同的场景下实现了间接越狱攻击,成功率分别为88.56%、79.04%和82.69%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的越狱攻击问题,特别是针对现有直接越狱攻击方法在面对具有强大过滤能力和高理解能力的大型模型时效果不佳的痛点。此外,随着LLM对实时知识更新的需求增加,检索增强生成(RAG)技术的应用也带来了新的安全风险,即通过外部知识库进行间接越狱攻击。

核心思路:论文的核心思路是利用检索增强生成(RAG)技术,通过向LLM提供一个被“污染”的外部知识库,诱导LLM生成不合规的内容,从而实现间接越狱攻击。这种方法绕过了直接提示攻击的过滤机制,利用LLM对外部知识的信任,更容易实现越狱。

技术框架:Poisoned-LangChain (PLC) 的整体框架包含以下几个主要阶段: 1. 知识库构建:构建一个包含恶意信息的外部知识库,这些恶意信息旨在诱导LLM生成不合规的内容。 2. 检索增强生成:使用LangChain框架,将用户输入的问题与构建好的知识库进行检索,并将检索到的相关信息作为上下文提供给LLM。 3. LLM生成:LLM基于用户输入的问题和检索到的上下文信息生成回答。由于上下文中包含恶意信息,LLM可能会生成不合规的内容。

关键创新:论文最重要的技术创新点在于提出了间接越狱攻击的概念,并设计了Poisoned-LangChain (PLC) 方法来实现这种攻击。与现有的直接越狱攻击方法相比,PLC利用了LLM对外部知识的信任,绕过了直接提示攻击的过滤机制,从而更容易实现越狱。此外,PLC还利用了RAG技术,使得攻击可以随着知识库的更新而不断演进。

关键设计:论文的关键设计包括: 1. 恶意知识库的设计:需要精心设计恶意知识库中的信息,使其能够诱导LLM生成特定类型的不合规内容。 2. LangChain框架的应用:利用LangChain框架实现知识库的检索和上下文的构建,简化了RAG流程的实现。 3. 攻击场景的设计:论文针对三种不同的越狱问题设计了不同的攻击场景,以验证PLC的有效性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Poisoned-LangChain (PLC) 成功地在三种不同的场景下实现了间接越狱攻击,针对六种不同的大型语言模型,成功率分别达到了88.56%、79.04%和82.69%。这些结果表明,PLC是一种有效的间接越狱攻击方法,能够绕过LLM的过滤机制,诱导其生成不合规的内容。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性,特别是在使用检索增强生成(RAG)技术的场景下。通过模拟Poisoned-LangChain攻击,可以发现LLM在面对恶意知识库时的脆弱性,并开发相应的防御机制。此外,该研究也提醒开发者在构建RAG系统时,需要对外部知识库的安全性进行严格审查,防止恶意信息的引入。

📄 摘要(原文)

With the development of natural language processing (NLP), large language models (LLMs) are becoming increasingly popular. LLMs are integrating more into everyday life, raising public concerns about their security vulnerabilities. Consequently, the security of large language models is becoming critically important. Currently, the techniques for attacking and defending against LLMs are continuously evolving. One significant method type of attack is the jailbreak attack, which designed to evade model safety mechanisms and induce the generation of inappropriate content. Existing jailbreak attacks primarily rely on crafting inducement prompts for direct jailbreaks, which are less effective against large models with robust filtering and high comprehension abilities. Given the increasing demand for real-time capabilities in large language models, real-time updates and iterations of new knowledge have become essential. Retrieval-Augmented Generation (RAG), an advanced technique to compensate for the model's lack of new knowledge, is gradually becoming mainstream. As RAG enables the model to utilize external knowledge bases, it provides a new avenue for jailbreak attacks. In this paper, we conduct the first work to propose the concept of indirect jailbreak and achieve Retrieval-Augmented Generation via LangChain. Building on this, we further design a novel method of indirect jailbreak attack, termed Poisoned-LangChain (PLC), which leverages a poisoned external knowledge base to interact with large language models, thereby causing the large models to generate malicious non-compliant dialogues.We tested this method on six different large language models across three major categories of jailbreak issues. The experiments demonstrate that PLC successfully implemented indirect jailbreak attacks under three different scenarios, achieving success rates of 88.56%, 79.04%, and 82.69% respectively.