`For Argument's Sake, Show Me How to Harm Myself!': Jailbreaking LLMs in Suicide and Self-Harm Contexts

📄 arXiv: 2507.02990v1 📥 PDF

作者: Annika M Schoene, Cansu Canca

分类: cs.CL, cs.AI

发布日期: 2025-07-01


💡 一句话要点

针对自杀和自残场景,提出多步Prompt对抗攻击方法,成功破解LLM安全防护。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对抗性攻击 Jailbreak 自杀 自残 安全防护 心理健康 Prompt工程

📋 核心要点

  1. 现有LLM安全防护机制在面对对抗性Prompt攻击时存在漏洞,尤其是在心理健康等敏感领域。
  2. 提出一种多步Prompt对抗攻击方法,通过精心设计的Prompt序列绕过LLM的内容和安全过滤器。
  3. 实验证明该方法能够成功破解多个主流LLM,使其生成有害的自杀和自残相关内容。

📝 摘要(中文)

大型语言模型(LLM)的安全协议和功能旨在防止有害、不道德或未经授权的输出,但这些防护措施容易受到对抗性Prompt攻击的影响。本文针对心理健康领域的自杀和自残场景,提出了两种新的测试用例,利用多步、Prompt级别的Jailbreak技术,绕过内置的内容和安全过滤器。实验表明,LLM忽略了用户意图,生成了详细的有害内容和指导,可能导致现实世界的危害。通过对六个广泛使用的LLM进行评估,验证了该绕过方法的通用性和可靠性。研究结果揭示了Prompt-Response过滤以及特定任务模型开发中存在的多层伦理问题,强调需要在安全关键型AI部署中采取更全面和系统的AI安全和伦理方法,并进行持续的对抗性测试。同时指出,在通用LLM技术成熟度有限的情况下,确保所有用例和领域的全面安全仍然极具挑战性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在自杀和自残等敏感领域的安全问题。现有LLM虽然配备了安全防护机制,但容易受到对抗性Prompt攻击,导致生成有害内容。现有的安全措施无法有效识别和阻止这些攻击,存在明显的安全隐患。

核心思路:论文的核心思路是利用多步、Prompt级别的Jailbreak技术,通过精心设计的Prompt序列逐步引导LLM,使其最终生成有害内容。这种方法旨在绕过LLM内置的内容和安全过滤器,揭示其在处理敏感话题时的脆弱性。

技术框架:该方法主要包含以下几个阶段:1) 设计初始Prompt,试探LLM的安全边界;2) 根据LLM的反馈,逐步调整Prompt,使其更具诱导性;3) 迭代上述过程,直到LLM生成所需的有害内容;4) 对比不同LLM的响应,评估攻击的有效性和通用性。

关键创新:该方法的关键创新在于其多步Prompt的设计,通过逐步引导的方式,绕过了LLM的直接安全检查。与传统的单步Prompt攻击相比,这种方法更具隐蔽性和有效性,能够更好地模拟真实场景下的对抗性攻击。

关键设计:Prompt的设计需要考虑到LLM的语言理解能力和安全策略。关键在于找到能够诱导LLM生成有害内容,同时又不会触发安全过滤器的Prompt。这需要对LLM的内部机制有一定的了解,并进行大量的实验和调试。此外,Prompt的迭代过程也需要一定的策略,例如,可以逐步增加有害信息的暗示,或者利用LLM的知识盲区。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法能够成功破解六个广泛使用的LLM,使其生成详细的自杀和自残相关内容。这表明现有LLM的安全防护机制存在严重的漏洞,无法有效阻止对抗性Prompt攻击。该研究强调了在安全关键型AI部署中进行持续对抗性测试的必要性,并呼吁采取更全面和系统的AI安全和伦理方法。

🎯 应用场景

该研究成果可应用于评估和改进LLM的安全防护机制,尤其是在心理健康等敏感领域。通过对抗性测试,可以发现LLM的安全漏洞,并针对性地进行修复。此外,该研究还可以帮助开发者更好地理解LLM的内部机制,从而设计更有效的安全策略,减少有害信息的生成和传播。未来,该研究可以扩展到其他敏感领域,例如,恐怖主义、仇恨言论等。

📄 摘要(原文)

Recent advances in large language models (LLMs) have led to increasingly sophisticated safety protocols and features designed to prevent harmful, unethical, or unauthorized outputs. However, these guardrails remain susceptible to novel and creative forms of adversarial prompting, including manually generated test cases. In this work, we present two new test cases in mental health for (i) suicide and (ii) self-harm, using multi-step, prompt-level jailbreaking and bypass built-in content and safety filters. We show that user intent is disregarded, leading to the generation of detailed harmful content and instructions that could cause real-world harm. We conduct an empirical evaluation across six widely available LLMs, demonstrating the generalizability and reliability of the bypass. We assess these findings and the multilayered ethical tensions that they present for their implications on prompt-response filtering and context- and task-specific model development. We recommend a more comprehensive and systematic approach to AI safety and ethics while emphasizing the need for continuous adversarial testing in safety-critical AI deployments. We also argue that while certain clearly defined safety measures and guardrails can and must be implemented in LLMs, ensuring robust and comprehensive safety across all use cases and domains remains extremely challenging given the current technical maturity of general-purpose LLMs.