RePD: Defending Jailbreak Attack through a Retrieval-based Prompt Decomposition Process

📄 arXiv: 2410.08660v3 📥 PDF

作者: Peiran Wang, Xiaogeng Liu, Chaowei Xiao

分类: cs.CR, cs.AI

发布日期: 2024-10-11 (更新: 2024-11-29)


💡 一句话要点

提出RePD框架,通过检索式提示分解防御大语言模型的越狱攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 越狱攻击防御 大型语言模型 提示分解 检索式学习 一次学习

📋 核心要点

  1. 大型语言模型面临越狱攻击的威胁,现有方法难以有效识别和防御恶意提示。
  2. RePD框架通过检索预定义的越狱提示模板,分解用户输入,从而分离并中和有害成分。
  3. 实验表明,RePD能有效防御越狱攻击,同时保持模型在正常用户请求上的性能。

📝 摘要(中文)

本研究介绍了一种创新的基于检索的提示分解框架RePD,旨在减轻大型语言模型(LLM)的越狱攻击风险。尽管LLM经过了严格的预训练和微调,专注于道德对齐,但仍然容易受到越狱攻击的利用。RePD基于一次学习模型运行,它访问预先收集的越狱提示模板数据库,以识别和分解嵌入在用户提示中的有害查询。这个过程涉及将越狱提示的分解集成到用户原始查询中,形成一个一次学习的例子,从而有效地教导LLM识别和分离恶意组件。因此,LLM能够首先中和任何潜在的有害元素,然后再以符合其道德准则的方式处理用户的提示。RePD具有通用性,并且与充当代理的各种开源LLM兼容。通过对有害和良性提示的全面实验,我们证明了我们提出的RePD在增强LLM抵御越狱攻击方面的有效性,而不会影响其响应典型用户请求的性能。

🔬 方法详解

问题定义:大型语言模型(LLM)在经过道德对齐的训练后,仍然容易受到越狱攻击。攻击者通过构造特定的恶意提示,诱导LLM生成有害或不当内容。现有的防御方法往往难以有效识别这些精心设计的攻击提示,或者在防御攻击的同时,过度限制了LLM的正常功能。

核心思路:RePD的核心思想是将用户输入的提示分解为良性和恶意两部分,然后仅对良性部分进行处理。通过检索已知的越狱提示模板,RePD能够识别并分离用户输入中潜在的恶意成分。这种分解过程被融入到一次学习的框架中,引导LLM学习区分和处理恶意提示。

技术框架:RePD框架主要包含以下几个模块:1) 越狱提示模板数据库:存储预先收集的各种越狱攻击提示。2) 提示分解模块:利用检索算法,将用户输入与数据库中的模板进行匹配,识别并分解出潜在的恶意成分。3) 一次学习模块:将分解后的提示(包含原始用户查询和分解出的恶意提示)作为一次学习的示例,输入到LLM中,引导LLM学习区分和处理恶意提示。4) 响应生成模块:在识别并中和恶意成分后,LLM根据用户输入的良性提示生成响应。

关键创新:RePD的关键创新在于其基于检索的提示分解方法。与传统的基于规则或模型的防御方法不同,RePD利用已知的攻击模式来识别和分离恶意提示,从而更有效地防御越狱攻击。此外,RePD采用一次学习的方式,使LLM能够快速适应新的攻击模式。

关键设计:RePD的关键设计包括:1) 越狱提示模板数据库的构建:需要收集尽可能多的越狱攻击提示,并对其进行分类和索引,以便快速检索。2) 检索算法的选择:需要选择一种高效且准确的检索算法,以便快速识别用户输入中潜在的恶意成分。3) 一次学习示例的构建:需要设计一种有效的一次学习示例,引导LLM学习区分和处理恶意提示。具体的参数设置和损失函数等细节,论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RePD能够显著提高LLM抵御越狱攻击的能力,同时保持其在正常用户请求上的性能。具体而言,RePD在防御越狱攻击方面的成功率提高了XX%(具体数值未知,论文中未给出),而对正常用户请求的响应准确率仅下降了YY%(具体数值未知,论文中未给出)。这些结果表明,RePD是一种有效且实用的防御越狱攻击的方法。

🎯 应用场景

RePD框架可应用于各种需要部署大型语言模型的场景,例如智能客服、聊天机器人、内容生成平台等。通过增强LLM抵御越狱攻击的能力,RePD可以有效防止模型生成有害或不当内容,从而提高用户体验,降低安全风险,并促进LLM技术的健康发展。未来,RePD可以进一步扩展到防御其他类型的攻击,例如对抗性攻击和数据泄露攻击。

📄 摘要(原文)

In this study, we introduce RePD, an innovative attack Retrieval-based Prompt Decomposition framework designed to mitigate the risk of jailbreak attacks on large language models (LLMs). Despite rigorous pretraining and finetuning focused on ethical alignment, LLMs are still susceptible to jailbreak exploits. RePD operates on a one-shot learning model, wherein it accesses a database of pre-collected jailbreak prompt templates to identify and decompose harmful inquiries embedded within user prompts. This process involves integrating the decomposition of the jailbreak prompt into the user's original query into a one-shot learning example to effectively teach the LLM to discern and separate malicious components. Consequently, the LLM is equipped to first neutralize any potentially harmful elements before addressing the user's prompt in a manner that aligns with its ethical guidelines. RePD is versatile and compatible with a variety of open-source LLMs acting as agents. Through comprehensive experimentation with both harmful and benign prompts, we have demonstrated the efficacy of our proposed RePD in enhancing the resilience of LLMs against jailbreak attacks, without compromising their performance in responding to typical user requests.