Self-HarmLLM: Can Large Language Model Harm Itself?

📄 arXiv: 2511.08597v1 📥 PDF

作者: Heehwan Kim, Sungjune Park, Daeseon Choi

分类: cs.CL, cs.AI

发布日期: 2025-10-31


💡 一句话要点

提出Self-HarmLLM,探索大语言模型利用自身输出来进行对抗攻击的潜在风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 对抗攻击 安全防护 越狱攻击 缓解的有害查询

📋 核心要点

  1. 现有LLM防御机制主要关注外部攻击,忽略了模型自身输出可能成为新的攻击向量的风险。
  2. 提出Self-HarmLLM,利用模型生成的缓解的有害查询(MHQ)作为输入,诱导模型产生有害回复。
  3. 实验表明,该方法在不同模型和设置下均能成功实现一定程度的越狱,并揭示了自动评估方法的局限性。

📝 摘要(中文)

大型语言模型(LLMs)通常配备了安全防护机制,以阻止生成有害的回复。然而,现有的防御措施总是假定外部攻击者精心设计有害查询,而模型自身输出成为新的攻击向量的可能性尚未得到充分探索。本研究提出了Self-HarmLLM场景,该场景使用由同一模型生成的缓解的有害查询(MHQ)作为新的输入。MHQ是一个模糊的查询,其原始意图被保留,但其有害性质没有直接暴露。我们验证了当这个MHQ重新输入到同一模型的单独会话中时,是否会发生越狱。我们对GPT-3.5-turbo、LLaMA3-8B-instruct和DeepSeek-R1-Distill-Qwen-7B在Base、Zero-shot和Few-shot条件下进行了实验。结果表明,在Zero-shot条件下,转换成功率高达52%,越狱成功率高达33%;在Few-shot条件下,转换成功率高达65%,越狱成功率高达41%。通过执行基于前缀的自动评估和人工评估,我们发现自动评估始终高估了越狱成功率,平均差异为52%。这表明仅靠自动评估不足以准确确定有害性。虽然这项研究是基于有限的查询集和评估者的玩具级别研究,但它证明了我们的方法仍然可以成为有效的攻击场景。这些结果表明,需要从根本上重新考虑安全防护机制的设计,并建立更强大的评估方法。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)是否能够利用自身生成的输出作为攻击媒介,绕过安全防护机制,产生有害内容。现有方法主要关注外部攻击,忽略了模型自身输出可能存在的风险,导致防御体系存在漏洞。

核心思路:核心思路是利用LLM自身生成一种“缓解的有害查询”(Mitigated Harmful Query, MHQ)。MHQ保留了原始有害查询的意图,但通过模糊化处理,使其表面上看起来无害,从而绕过模型的安全检查。然后,将MHQ重新输入到同一模型的另一个会话中,观察是否会触发有害回复。

技术框架:整体流程包括以下几个步骤:1) 构造原始有害查询;2) 使用LLM生成对应的MHQ;3) 将MHQ输入到同一LLM的独立会话中;4) 评估LLM的回复是否为有害回复。实验在不同的LLM(GPT-3.5-turbo, LLaMA3-8B-instruct, DeepSeek-R1-Distill-Qwen-7B)上进行,并采用Base、Zero-shot和Few-shot三种设置。评估方法包括基于前缀的自动评估和人工评估。

关键创新:最重要的创新点在于提出了Self-HarmLLM的概念,即LLM利用自身输出来进行对抗攻击。这与传统的外部攻击模式不同,揭示了LLM安全防护机制的一个潜在漏洞。此外,论文还发现自动评估方法在判断有害性方面存在局限性,需要结合人工评估才能更准确地评估攻击效果。

关键设计:MHQ的生成方式是关键设计之一,需要保证其在保留原始意图的同时,能够绕过安全检查。论文中没有详细描述MHQ的具体生成方法,但强调了其模糊性和间接性。此外,实验中采用了不同的prompting策略(Zero-shot和Few-shot)来考察模型在不同条件下的表现。评估指标包括转换成功率(Transformation Success Rate)和越狱成功率(Jailbreak Success Rate)。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在Zero-shot条件下,MHQ的转换成功率高达52%,越狱成功率高达33%。在Few-shot条件下,转换成功率高达65%,越狱成功率高达41%。此外,研究发现自动评估方法高估了越狱成功率,平均差异高达52%,突出了人工评估的重要性。这些数据表明,Self-HarmLLM是一种有效的攻击方法,并揭示了现有评估方法的不足。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性,帮助开发者更好地理解和防范模型自身可能存在的安全风险。通过改进安全防护机制和评估方法,可以降低LLM被恶意利用的风险,确保其在各个领域的安全可靠应用,例如智能客服、内容生成和教育等。

📄 摘要(原文)

Large Language Models (LLMs) are generally equipped with guardrails to block the generation of harmful responses. However, existing defenses always assume that an external attacker crafts the harmful query, and the possibility of a model's own output becoming a new attack vector has not been sufficiently explored. In this study, we propose the Self-HarmLLM scenario, which uses a Mitigated Harmful Query (MHQ) generated by the same model as a new input. An MHQ is an ambiguous query whose original intent is preserved while its harmful nature is not directly exposed. We verified whether a jailbreak occurs when this MHQ is re-entered into a separate session of the same model. We conducted experiments on GPT-3.5-turbo, LLaMA3-8B-instruct, and DeepSeek-R1-Distill-Qwen-7B under Base, Zero-shot, and Few-shot conditions. The results showed up to 52% transformation success rate and up to 33% jailbreak success rate in the Zero-shot condition, and up to 65% transformation success rate and up to 41% jailbreak success rate in the Few-shot condition. By performing both prefix-based automated evaluation and human evaluation, we found that the automated evaluation consistently overestimated jailbreak success, with an average difference of 52%. This indicates that automated evaluation alone is not accurate for determining harmfulness. While this study is a toy-level study based on a limited query set and evaluators, it proves that our method can still be a valid attack scenario. These results suggest the need for a fundamental reconsideration of guardrail design and the establishment of a more robust evaluation methodology.