Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

📄 arXiv: 2505.15753v1 📥 PDF

作者: Taiye Chen, Zeming Wei, Ang Li, Yisen Wang

分类: cs.CR, cs.AI, cs.CL, cs.LG

发布日期: 2025-05-21


💡 一句话要点

提出安全上下文检索(SCR)方法,提升LLM抵抗恶意越狱攻击的防御能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 越狱攻击防御 上下文检索 检索增强生成 对抗攻击 安全对齐 动态防御

📋 核心要点

  1. 现有LLM防御机制无法有效应对不断涌现的对抗性越狱攻击,静态防御存在局限性。
  2. 利用检索增强生成(RAG)技术,提出安全上下文检索(SCR)框架,动态防御越狱攻击。
  3. 实验证明SCR在防御已知和新型越狱攻击方面表现出色,提升了LLM的安全性。

📝 摘要(中文)

大型语言模型(LLMs)容易受到越狱攻击,攻击者利用精心设计的提示诱导模型产生有害或不道德的响应。这种威胁引发了人们对LLM在实际部署中的安全性和可靠性的担忧。现有的防御机制虽然部分缓解了这些风险,但对抗技术的进步使得新的越狱方法能够绕过这些保护,暴露了静态防御框架的局限性。本文探索了通过上下文检索来防御不断演变的越狱威胁。首先,进行了一项初步研究,表明即使是针对特定越狱的少量安全对齐示例也可以显著提高针对该攻击模式的鲁棒性。在此基础上,进一步利用检索增强生成(RAG)技术,并提出了安全上下文检索(SCR),这是一种可扩展且鲁棒的LLM安全防护范例。全面的实验表明,SCR在防御已建立的和新兴的越狱策略方面都取得了优异的防御性能,为LLM安全做出了新的贡献。代码将在发表后提供。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)容易受到对抗性越狱攻击的问题。现有的防御方法,如静态防御框架,无法有效应对不断涌现的新的越狱攻击手段,导致LLMs在实际应用中存在安全风险。这些攻击利用精心设计的提示,诱导LLMs产生有害或不道德的回复,严重威胁了LLMs的可靠性和安全性。

核心思路:论文的核心思路是利用检索增强生成(RAG)技术,通过检索与当前输入相关的安全上下文,来引导LLMs生成安全对齐的回复。这种方法的核心在于,即使是少量的安全对齐示例,也能显著提高LLMs对特定越狱攻击模式的鲁棒性。通过动态检索安全上下文,可以有效应对不断变化的越狱攻击,避免静态防御的局限性。

技术框架:SCR框架主要包含以下几个阶段:1) 输入处理:接收用户输入,即可能包含越狱攻击的提示。2) 安全上下文检索:使用检索模型(如向量数据库)从安全上下文中检索与输入最相关的示例。安全上下文库包含一系列安全对齐的提示和回复,用于指导LLM生成安全回复。3) 提示构建:将检索到的安全上下文与原始输入组合成新的提示。4) LLM生成:将构建好的提示输入LLM,生成回复。5) 输出评估:对LLM的输出进行评估,判断其是否安全对齐。

关键创新:该方法最重要的创新点在于将上下文检索引入到LLM的防御体系中,实现了动态防御。与传统的静态防御方法不同,SCR能够根据不同的输入动态地检索相关的安全上下文,从而更好地应对不断变化的越狱攻击。这种方法使得防御系统能够适应新的攻击模式,提高了LLM的整体安全性。

关键设计:SCR的关键设计包括:1) 安全上下文库的构建:需要构建一个包含大量安全对齐的提示和回复的数据库。2) 检索模型的选择:选择合适的检索模型,如基于向量相似度的检索模型,以高效地检索相关的安全上下文。3) 提示构建策略:设计有效的提示构建策略,将检索到的安全上下文与原始输入进行组合,以引导LLM生成安全回复。4) 评估指标:使用合适的评估指标来评估LLM输出的安全性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SCR在防御已建立的和新兴的越狱策略方面都取得了优异的防御性能。具体而言,SCR能够有效降低LLM生成有害或不道德回复的概率,显著提升了LLM的安全性。相较于传统的静态防御方法,SCR在应对新型越狱攻击时表现出更强的鲁棒性和适应性,为LLM安全防护提供了一种新的有效途径。

🎯 应用场景

该研究成果可广泛应用于各种需要安全可靠LLM服务的场景,例如智能客服、内容生成、教育辅导等。通过部署SCR,可以有效防止LLM被恶意利用,生成有害信息或执行不道德行为,从而提升用户信任度和安全性。未来,该技术有望成为LLM安全防护的重要组成部分,推动LLM在更多领域的应用。

📄 摘要(原文)

Large Language Models (LLMs) are known to be vulnerable to jailbreaking attacks, wherein adversaries exploit carefully engineered prompts to induce harmful or unethical responses. Such threats have raised critical concerns about the safety and reliability of LLMs in real-world deployment. While existing defense mechanisms partially mitigate such risks, subsequent advancements in adversarial techniques have enabled novel jailbreaking methods to circumvent these protections, exposing the limitations of static defense frameworks. In this work, we explore defending against evolving jailbreaking threats through the lens of context retrieval. First, we conduct a preliminary study demonstrating that even a minimal set of safety-aligned examples against a particular jailbreak can significantly enhance robustness against this attack pattern. Building on this insight, we further leverage the retrieval-augmented generation (RAG) techniques and propose Safety Context Retrieval (SCR), a scalable and robust safeguarding paradigm for LLMs against jailbreaking. Our comprehensive experiments demonstrate how SCR achieves superior defensive performance against both established and emerging jailbreaking tactics, contributing a new paradigm to LLM safety. Our code will be available upon publication.