Kov: Transferable and Naturalistic Black-Box LLM Attacks using Markov Decision Processes and Tree Search

📄 arXiv: 2408.08899v1 📥 PDF

作者: Robert J. Moss

分类: cs.CR, cs.AI, cs.CL, cs.LG

发布日期: 2024-08-11

🔗 代码/项目: GITHUB


💡 一句话要点

Kov:利用马尔可夫决策过程和树搜索实现可迁移的自然黑盒LLM攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对抗性攻击 黑盒攻击 马尔可夫决策过程 蒙特卡洛树搜索 红队测试 安全性评估

📋 核心要点

  1. 现有方法难以在黑盒LLM上生成可迁移且自然的对抗性攻击,限制了对LLM安全性的有效评估。
  2. Kov算法将红队攻击建模为MDP,利用蒙特卡洛树搜索在白盒模型上优化攻击,并迁移到黑盒模型。
  3. 实验表明,Kov算法仅需少量查询即可破解GPT-3.5等黑盒模型,但对GPT-4无效,揭示了模型安全性的差异。

📝 摘要(中文)

为了确保大型语言模型(LLM)的正确对齐和安全性,诱导其产生有害行为是一项重要的任务。通常,在训练LLM时会遵循伦理准则,但仍然可能通过红队对抗性攻击发现对齐失败。本文将红队问题建模为马尔可夫决策过程(MDP),并使用蒙特卡洛树搜索来寻找黑盒、闭源LLM的有害行为。我们优化token级别的提示后缀,以针对白盒LLM上的目标有害行为,并包含一个自然语言损失项,即log-perplexity,以生成更自然的语言攻击,从而提高可解释性。所提出的算法Kov在白盒LLM上进行训练以优化对抗性攻击,并定期评估来自黑盒LLM的响应,以指导搜索更具危害性的黑盒行为。在我们的初步研究中,结果表明我们可以在仅10次查询中破解GPT-3.5等黑盒模型,但在GPT-4上失败,这可能表明较新的模型对token级别的攻击更具鲁棒性。所有用于重现这些结果的工作都是开源的。

🔬 方法详解

问题定义:论文旨在解决黑盒大型语言模型(LLM)的安全性评估问题,即如何有效地诱导黑盒LLM产生有害行为。现有方法通常依赖于人工设计的提示或梯度信息,难以生成可迁移到黑盒模型且自然的对抗性攻击,导致评估结果不准确,且可解释性差。

核心思路:论文的核心思路是将红队攻击过程建模为马尔可夫决策过程(MDP),并利用蒙特卡洛树搜索(MCTS)在白盒LLM上进行训练,优化token级别的提示后缀,使其能够诱导模型产生目标有害行为。同时,引入自然语言损失项(log-perplexity)来提高生成攻击的自然性,从而增强其可迁移性和可解释性。

技术框架:Kov算法的整体框架包括以下几个主要阶段:1) 在白盒LLM上构建MDP环境,状态空间为提示序列,动作空间为token集合,奖励函数基于目标有害行为的程度;2) 使用MCTS在MDP环境中搜索最优的提示后缀,通过模拟生成多个提示序列,并根据LLM的响应评估其有害程度;3) 引入log-perplexity损失项,鼓励生成更自然的提示序列,提高可读性和可迁移性;4) 定期评估黑盒LLM对生成的提示序列的响应,并根据评估结果调整MCTS的搜索策略,以提高黑盒攻击的成功率。

关键创新:论文最重要的技术创新点在于将红队攻击建模为MDP,并结合MCTS和自然语言损失项,实现了在白盒模型上训练、迁移到黑盒模型的对抗性攻击。这种方法无需访问黑盒模型的梯度信息,且能够生成更自然、可解释的攻击,提高了黑盒LLM安全性评估的有效性。

关键设计:关键设计包括:1) 奖励函数的设计,用于量化LLM响应的有害程度,例如基于关键词匹配或人工评估;2) log-perplexity损失项的权重设置,用于平衡攻击的有效性和自然性;3) MCTS的搜索策略,例如UCT算法,用于探索和利用不同的提示序列;4) 白盒模型和黑盒模型的选择,以及它们之间的差异对攻击迁移性的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Kov算法仅需10次查询即可成功破解GPT-3.5等黑盒模型,诱导其产生有害行为。然而,该方法在GPT-4上失效,表明较新的模型可能对token级别的攻击具有更强的防御能力。这些结果揭示了不同LLM在安全性方面的差异,为未来的模型安全研究提供了重要参考。

🎯 应用场景

该研究成果可应用于LLM的安全性评估和红队测试,帮助开发者发现和修复模型中的潜在漏洞。通过自动化生成对抗性攻击,可以更全面地评估LLM在各种场景下的安全性,提高模型的鲁棒性和可靠性。此外,该方法生成的自然语言攻击也更易于理解和分析,有助于深入了解LLM的内部机制。

📄 摘要(原文)

Eliciting harmful behavior from large language models (LLMs) is an important task to ensure the proper alignment and safety of the models. Often when training LLMs, ethical guidelines are followed yet alignment failures may still be uncovered through red teaming adversarial attacks. This work frames the red-teaming problem as a Markov decision process (MDP) and uses Monte Carlo tree search to find harmful behaviors of black-box, closed-source LLMs. We optimize token-level prompt suffixes towards targeted harmful behaviors on white-box LLMs and include a naturalistic loss term, log-perplexity, to generate more natural language attacks for better interpretability. The proposed algorithm, Kov, trains on white-box LLMs to optimize the adversarial attacks and periodically evaluates responses from the black-box LLM to guide the search towards more harmful black-box behaviors. In our preliminary study, results indicate that we can jailbreak black-box models, such as GPT-3.5, in only 10 queries, yet fail on GPT-4$-$which may indicate that newer models are more robust to token-level attacks. All work to reproduce these results is open sourced (https://github.com/sisl/Kov.jl).