Jailbreaking as a Reward Misspecification Problem

📄 arXiv: 2406.14393v5 📥 PDF

作者: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong

分类: cs.LG, cs.CL

发布日期: 2024-06-20 (更新: 2025-04-19)

备注: Accepted to ICLR 2025. Code: https://github.com/zhxieml/remiss-jailbreak


💡 一句话要点

提出基于奖励函数误设的LLM越狱攻击方法,提升对抗样本生成效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对抗攻击 奖励函数误设 自动化红队 安全性评估

📋 核心要点

  1. 现有LLM对抗攻击方法难以有效利用奖励函数的内在缺陷,导致攻击成功率受限。
  2. 论文提出基于奖励函数误设的攻击框架ReMiss,通过在误设空间中生成对抗样本提升攻击效果。
  3. 实验表明ReMiss在多个基准测试中取得了SOTA攻击成功率,并具有良好的可迁移性和可读性。

📝 摘要(中文)

大型语言模型(LLMs)的广泛应用引发了对其安全性和可靠性的担忧,特别是它们容易受到对抗性攻击。本文提出了一种新的视角,将这种脆弱性归因于对齐过程中的奖励函数误设。当奖励函数未能准确捕捉预期行为时,就会发生这种误设,从而导致模型输出错位。我们引入了一个名为ReGap的指标来量化奖励误设的程度,并证明了其在检测有害后门提示方面的有效性和鲁棒性。在此基础上,我们提出了ReMiss,一个用于自动化红队的系统,该系统在奖励误设空间中生成对抗性提示。ReMiss在AdvBench基准测试中针对各种目标对齐的LLM实现了最先进的攻击成功率,同时保留了生成提示的人类可读性。此外,对开源模型的这些攻击表明了对GPT-4o等闭源模型以及HarmBench的分布外任务的高度可迁移性。详细的分析突出了所提出的奖励误设目标相比于先前方法的独特优势,为提高LLM的安全性和鲁棒性提供了新的见解。

🔬 方法详解

问题定义:现有的大语言模型(LLM)对抗攻击方法,例如基于梯度的方法或进化算法,通常难以有效地利用LLM对齐过程中奖励函数的内在缺陷。这些方法可能生成难以理解或泛化能力差的对抗性提示,并且攻击成功率有待提高。因此,如何更有效地利用奖励函数的误设来生成更有效、更具可迁移性的对抗性提示是一个关键问题。

核心思路:本文的核心思路是将LLM的越狱攻击视为一个奖励函数误设的问题。这意味着LLM在对齐过程中,奖励函数未能完全捕捉到人类的意图,导致模型在某些情况下会产生不期望的行为。通过在奖励函数误设的空间中搜索对抗性提示,可以更容易地找到能够触发LLM产生有害输出的输入。这种方法的核心在于利用了LLM对奖励函数的依赖性,以及奖励函数本身可能存在的缺陷。

技术框架:ReMiss系统的整体框架包括以下几个主要模块:1) 奖励误设量化:使用ReGap指标来量化奖励函数的误设程度,从而确定潜在的攻击空间。2) 对抗提示生成:在奖励误设空间中,使用优化算法(例如梯度下降或进化算法)生成对抗性提示。3) 攻击评估:评估生成的对抗性提示在目标LLM上的攻击成功率。4) 迁移性评估:评估生成的对抗性提示在其他LLM上的攻击成功率,以衡量其泛化能力。

关键创新:本文最重要的技术创新点在于将LLM的越狱攻击问题重新定义为奖励函数误设问题。与以往直接优化对抗性提示的方法不同,ReMiss关注于利用奖励函数本身的缺陷来生成攻击。这种方法能够更有效地找到能够绕过LLM安全机制的输入,并且生成的对抗性提示更具可读性和可迁移性。

关键设计:ReGap指标用于量化奖励函数的误设程度,其具体计算方式未知(论文未提供详细公式)。对抗提示生成过程中,使用了梯度下降或进化算法来优化提示,目标是最大化奖励误设程度,同时保持提示的可读性。损失函数的设计需要平衡攻击成功率和提示的可读性。具体的网络结构取决于目标LLM,ReMiss可以应用于各种不同的LLM架构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReMiss在AdvBench基准测试中取得了最先进的攻击成功率,超过了现有的对抗攻击方法。实验还表明,ReMiss生成的对抗性提示具有良好的可迁移性,能够成功攻击闭源模型GPT-4o以及HarmBench中的分布外任务。这些结果表明,基于奖励函数误设的攻击方法具有很强的实用性和有效性。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性与鲁棒性,通过自动化红队测试发现模型潜在的安全漏洞,并为后续的对齐训练提供改进方向。此外,该方法也可用于评估不同LLM的安全性能,为用户选择更安全的模型提供参考。

📄 摘要(原文)

The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. This misspecification occurs when the reward function fails to accurately capture the intended behavior, leading to misaligned model outputs. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts in a reward-misspecified space. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark against various target aligned LLMs while preserving the human readability of the generated prompts. Furthermore, these attacks on open-source models demonstrate high transferability to closed-source models like GPT-4o and out-of-distribution tasks from HarmBench. Detailed analysis highlights the unique advantages of the proposed reward misspecification objective compared to previous methods, offering new insights for improving LLM safety and robustness.