Jailbreak Defense in a Narrow Domain: Limitations of Existing Methods and a New Transcript-Classifier Approach

📄 arXiv: 2412.02159v1 📥 PDF

作者: Tony T. Wang, John Hughes, Henry Sleight, Rylan Schaeffer, Rajashree Agrawal, Fazl Barez, Mrinank Sharma, Jesse Mu, Nir Shavit, Ethan Perez

分类: cs.LG, cs.AI, cs.CL, cs.CR

发布日期: 2024-12-03

备注: Accepted to the AdvML-Frontiers and SoLaR workshops at NeurIPS 2024


💡 一句话要点

提出基于转录分类器的防御方法,提升LLM在狭窄领域内的越狱防御能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 越狱防御 大语言模型 转录分类器 安全训练 对抗训练

📋 核心要点

  1. 现有针对LLM的越狱防御方法在广泛定义的禁止行为集合上表现不佳,本文关注狭窄领域的防御问题。
  2. 提出一种基于转录分类器的防御方法,通过分析对话历史来判断是否存在违规风险。
  3. 实验表明,该方法优于现有的安全训练、对抗训练和输入/输出分类器等基线防御方法,但仍存在局限性。

📝 摘要(中文)

本文研究了在仅需禁止大语言模型(LLM)执行特定狭窄行为集合时,越狱防御的难度。以阻止LLM协助用户制造炸弹为例,研究发现现有的安全训练、对抗训练以及输入/输出分类器等防御方法无法完全解决此问题。为了寻求更好的解决方案,本文提出了一种转录分类器防御方法,其性能优于所测试的基线防御方法。然而,该分类器防御在某些情况下仍然失效,这突显了即使在狭窄领域内进行越狱防御的难度。

🔬 方法详解

问题定义:本文旨在解决在特定狭窄领域内,例如防止LLM协助制造炸弹,现有防御方法无法有效阻止越狱攻击的问题。现有方法,如安全训练、对抗训练和输入/输出分类器,在面对精心设计的越狱提示时,容易被绕过,导致LLM产生有害回复。

核心思路:核心思路是训练一个转录分类器,该分类器能够分析LLM与用户的对话历史(转录),并预测对话是否正在朝着违规方向发展。通过监控对话过程,可以更早地检测并阻止潜在的越狱攻击,而不仅仅依赖于对最终输出的判断。

技术框架:整体框架包含以下几个主要阶段:1) 用户输入提示;2) LLM生成回复;3) 将用户提示和LLM回复添加到对话历史(转录);4) 转录分类器分析对话历史,输出对话是否安全的概率;5) 如果概率低于阈值,则阻止LLM继续对话,并采取安全措施(例如,拒绝回复或重置对话)。

关键创新:关键创新在于使用转录分类器,将越狱防御从对单个输入/输出的判断,扩展到对整个对话过程的监控。这使得防御系统能够捕捉到隐藏在多轮对话中的越狱企图,从而提高防御的鲁棒性。与传统的输入/输出分类器相比,转录分类器能够利用更多的上下文信息。

关键设计:转录分类器可以使用各种文本分类模型,例如BERT、RoBERTa等。关键设计包括:1) 如何构建训练数据集,包括正样本(安全对话)和负样本(包含越狱企图的对话);2) 如何选择合适的分类阈值,以平衡防御的有效性和用户体验;3) 如何处理长对话历史,例如使用滑动窗口或摘要技术。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,本文提出的转录分类器防御方法在阻止LLM协助制造炸弹的任务上,优于现有的安全训练、对抗训练和输入/输出分类器等基线方法。虽然具体性能数据未在摘要中给出,但强调了转录分类器在某些情况下仍然失效,表明即使在狭窄领域内,越狱防御仍然是一个具有挑战性的问题。

🎯 应用场景

该研究成果可应用于各种需要防止LLM被恶意利用的场景,例如:内容审核、安全助手、教育辅导等。通过部署转录分类器,可以有效降低LLM被用于生成有害信息或执行非法活动的风险,从而提升LLM的安全性与可靠性。未来的研究可以探索更复杂的对话模式和更强大的分类器模型,以进一步提高越狱防御的性能。

📄 摘要(原文)

Defending large language models against jailbreaks so that they never engage in a broadly-defined set of forbidden behaviors is an open problem. In this paper, we investigate the difficulty of jailbreak-defense when we only want to forbid a narrowly-defined set of behaviors. As a case study, we focus on preventing an LLM from helping a user make a bomb. We find that popular defenses such as safety training, adversarial training, and input/output classifiers are unable to fully solve this problem. In pursuit of a better solution, we develop a transcript-classifier defense which outperforms the baseline defenses we test. However, our classifier defense still fails in some circumstances, which highlights the difficulty of jailbreak-defense even in a narrow domain.