Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts?

📄 arXiv: 2412.03235v2 📥 PDF

作者: Sravanti Addepalli, Yerram Varun, Arun Suggala, Karthikeyan Shanmugam, Prateek Jain

分类: cs.CL, cs.AI

发布日期: 2024-12-04 (更新: 2025-03-25)

备注: Accepted in ICLR 2025

期刊: Addepalli, S., Varun, Y., Suggala, A., Shanmugam, K., & Jain, P. (2025). Does safety training of LLMs generalize to semantically related natural prompts? In The Thirteenth International Conference on Learning Representations 2025


💡 一句话要点

揭示安全对齐的LLM在语义相关自然提示下的脆弱性,提出ReG-QA方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 对抗攻击 自然提示 越狱攻击

📋 核心要点

  1. 现有安全对齐的LLM仍易受对抗攻击,难以抵御语义相关的自然提示。
  2. 提出ReG-QA方法,通过生成有毒回答并反向生成问题,评估LLM对自然提示的安全性。
  3. 实验表明,GPT-4等模型易受ReG-QA攻击,且该方法对现有防御手段更具鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)即使经过安全微调,仍然容易受到对抗性攻击或越狱提示的影响,从而生成不良内容。尽管输入token空间的高维度使得找到能够越狱这些模型的对抗性提示不可避免,但本文旨在评估经过安全微调的LLMs在面对与有毒种子提示语义相关的自然提示时是否安全,这些种子提示在对齐后会引发安全响应。研究发现,流行的对齐LLMs(如GPT-4)可能会被简单的提示所攻破,这些提示甚至不是为了越狱模型而设计的。此外,实验表明,给定一个从非对齐模型中引发有毒响应的种子提示,可以系统地生成几个语义相关的自然提示,从而越狱对齐的LLMs。为此,本文提出了一种响应引导的问题增强方法(ReG-QA),以评估安全对齐的LLMs对自然提示的泛化能力,该方法首先使用非对齐的LLM根据种子问题生成几个有毒答案(Q to A),然后利用LLM生成可能产生这些答案的问题(A to Q)。有趣的是,研究发现经过安全微调的LLMs(如GPT-4o)容易从不安全的内容中产生自然的越狱问题(没有拒绝),因此可以用于后一步(A to Q)。在JailbreakBench排行榜上,该方法获得了与领先的对抗性攻击方法相当或更好的攻击成功率,同时对Smooth-LLM和Synonym Substitution等防御措施具有显著的稳定性,这些防御措施对排行榜上的所有现有攻击都有效。

🔬 方法详解

问题定义:论文旨在解决安全对齐的大型语言模型(LLMs)在面对语义相关的自然提示时,其安全性是否能够泛化的问题。现有方法主要关注对抗性攻击,即精心设计的、旨在绕过安全机制的提示。然而,这些方法忽略了LLMs在面对更自然的、但语义上与有毒内容相关的提示时的脆弱性。现有方法的痛点在于无法有效评估LLMs在实际应用场景中可能遇到的、更隐蔽的风险。

核心思路:论文的核心思路是,通过生成与有毒内容语义相关的自然提示,来测试安全对齐LLMs的安全性。具体而言,给定一个种子问题,首先利用一个未对齐的LLM生成有毒的回答,然后利用另一个LLM,根据这些有毒回答反向生成问题。这些反向生成的问题,由于与有毒内容相关,因此可能绕过安全对齐机制,从而揭示LLMs的潜在风险。这种方法模拟了用户在不知情的情况下,通过自然语言与LLM交互,但最终导致LLM生成有害内容的情况。

技术框架:ReG-QA方法包含两个主要阶段:Q to A(问题到答案)和A to Q(答案到问题)。在Q to A阶段,给定一个种子问题,使用一个未对齐的LLM生成多个有毒的回答。在A to Q阶段,利用一个LLM,根据这些有毒回答反向生成问题。这些反向生成的问题被用作对安全对齐LLM的攻击提示,以评估其安全性。整个流程旨在模拟用户通过自然语言与LLM交互,并可能无意中触发LLM生成有害内容的过程。

关键创新:ReG-QA方法的关键创新在于,它不依赖于人工设计的对抗性提示,而是通过自动生成与有毒内容语义相关的自然提示来评估LLMs的安全性。这种方法更贴近实际应用场景,能够更有效地揭示LLMs在面对自然语言输入时的潜在风险。此外,ReG-QA方法还能够利用安全对齐的LLMs本身来生成攻击提示,这进一步提高了攻击的效率和隐蔽性。

关键设计:在Q to A阶段,需要选择一个合适的未对齐LLM,并设置合适的生成参数,以确保生成的回答具有足够的多样性和毒性。在A to Q阶段,需要选择一个能够根据答案生成高质量问题的LLM,并设置合适的生成参数,以确保生成的问题既与答案相关,又能够绕过安全对齐机制。此外,还需要设计合适的评估指标,以衡量攻击的成功率和LLM生成的有害内容的程度。论文中使用了JailbreakBench排行榜上的指标,并针对ReG-QA方法的特点进行了调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ReG-QA方法在JailbreakBench排行榜上取得了与领先的对抗性攻击方法相当或更好的攻击成功率。更重要的是,ReG-QA方法对Smooth-LLM和Synonym Substitution等防御措施具有显著的稳定性,这些防御措施对排行榜上的所有现有攻击都有效。这表明ReG-QA方法能够更有效地揭示LLMs的潜在风险,并为提升LLMs的安全性提供了新的思路。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性,尤其是在实际应用场景中,帮助开发者发现并修复模型在面对自然语言输入时的潜在漏洞。此外,该方法还可用于生成更具鲁棒性的安全对齐训练数据,从而提高LLMs的整体安全性。

📄 摘要(原文)

Large Language Models (LLMs) are known to be susceptible to crafted adversarial attacks or jailbreaks that lead to the generation of objectionable content despite being aligned to human preferences using safety fine-tuning methods. While the large dimensionality of input token space makes it inevitable to find adversarial prompts that can jailbreak these models, we aim to evaluate whether safety fine-tuned LLMs are safe against natural prompts which are semantically related to toxic seed prompts that elicit safe responses after alignment. We surprisingly find that popular aligned LLMs such as GPT-4 can be compromised using naive prompts that are NOT even crafted with an objective of jailbreaking the model. Furthermore, we empirically show that given a seed prompt that elicits a toxic response from an unaligned model, one can systematically generate several semantically related natural prompts that can jailbreak aligned LLMs. Towards this, we propose a method of Response Guided Question Augmentation (ReG-QA) to evaluate the generalization of safety aligned LLMs to natural prompts, that first generates several toxic answers given a seed question using an unaligned LLM (Q to A), and further leverages an LLM to generate questions that are likely to produce these answers (A to Q). We interestingly find that safety fine-tuned LLMs such as GPT-4o are vulnerable to producing natural jailbreak questions from unsafe content (without denial) and can thus be used for the latter (A to Q) step. We obtain attack success rates that are comparable to/ better than leading adversarial attack methods on the JailbreakBench leaderboard, while being significantly more stable against defenses such as Smooth-LLM and Synonym Substitution, which are effective against existing all attacks on the leaderboard.