Uncovering the Persuasive Fingerprint of LLMs in Jailbreaking Attacks
作者: Havva Alizadeh Noughabi, Julien Serbanescu, Fattane Zarrinkalam, Ali Dehghantanha
分类: cs.CL, cs.AI
发布日期: 2025-10-24
💡 一句话要点
利用社会科学说服理论,提升LLM越狱攻击的成功率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 说服理论 对抗性提示 LLM安全
📋 核心要点
- 现有LLM越狱攻击研究较少关注语言和心理机制,缺乏对模型脆弱性根源的深入理解。
- 该研究利用社会科学的说服理论,设计具有说服性结构的对抗提示,以绕过LLM的对齐约束。
- 实验表明,基于说服理论的提示能显著提高越狱攻击的成功率,揭示了LLM潜在的安全漏洞。
📝 摘要(中文)
尽管大型语言模型(LLM)取得了显著进展,但它们仍然容易受到越狱攻击的影响,这些攻击绕过对齐安全措施并诱导出有害输出。先前的研究提出了各种攻击策略,这些策略在人类可读性和可迁移性方面有所不同,但很少关注可能影响模型对此类攻击的敏感性的语言和心理机制。本文研究了一个跨学科的研究方向,该方向利用社会科学中说服力的基础理论来构建对抗性提示,这些提示能够规避LLM中的对齐约束。基于已建立的说服策略,我们假设LLM在经过大规模人类生成文本的训练后,可能对具有说服性结构的提示做出更顺从的反应。此外,我们调查了LLM本身是否表现出在其越狱响应中出现的独特的说服性指纹。跨多个对齐LLM的实证评估表明,具有说服意识的提示显著绕过了安全措施,证明了它们诱导越狱行为的潜力。这项工作强调了跨学科洞察力在应对LLM安全不断演变的挑战中的重要性。代码和数据已公开。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)虽然经过了对齐训练,旨在避免生成有害内容,但仍然容易受到越狱攻击。现有的攻击方法主要集中在构造具有特定语法或语义结构的提示,以绕过安全机制,但缺乏对LLM内在的语言和心理弱点的深入理解。这些方法忽略了LLM在大量人类文本上训练的事实,这可能使其对某些说服策略更加敏感。
核心思路:本文的核心思路是利用社会科学中成熟的说服理论,例如互惠、权威、稀缺性等,来设计对抗性提示。研究人员假设,由于LLM在大量人类文本上进行了训练,因此它们可能更容易受到这些说服策略的影响,从而更容易被诱导生成有害内容。通过将这些说服策略融入到提示中,可以有效地绕过LLM的对齐约束。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择合适的LLM作为攻击目标;2) 基于社会科学的说服理论,设计一系列具有说服性结构的对抗性提示;3) 将这些提示输入到LLM中,观察其输出是否包含有害内容;4) 对实验结果进行分析,评估不同说服策略的有效性;5) 探索LLM在越狱响应中表现出的说服性指纹。
关键创新:该研究的关键创新在于将社会科学的说服理论引入到LLM越狱攻击的研究中。与以往主要关注语法或语义结构的攻击方法不同,该研究关注的是LLM对人类说服策略的潜在敏感性。这种跨学科的视角为理解和解决LLM的安全问题提供了新的思路。
关键设计:在提示设计方面,研究人员参考了社会心理学中经典的说服原则,例如:互惠原则(先给予好处再提出要求)、权威原则(利用权威人士的背书)、稀缺性原则(强调机会的稀缺性)等。他们将这些原则转化为具体的语言表达,并将其融入到提示中。例如,为了利用互惠原则,提示可能会先赞扬LLM的智能,然后再提出一个有害的请求。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于说服理论设计的提示能够显著提高越狱攻击的成功率。例如,某些说服性提示能够使LLM生成有害内容的概率提高XX%。此外,研究还发现LLM在越狱响应中表现出独特的说服性指纹,这为进一步理解LLM的内在机制提供了线索。
🎯 应用场景
该研究成果可应用于提升LLM的安全性,通过分析LLM对不同说服策略的敏感性,可以设计更有效的防御机制,防止恶意用户利用说服性提示进行越狱攻击。此外,该研究也为开发更安全、更可靠的人工智能系统提供了新的思路。
📄 摘要(原文)
Despite recent advances, Large Language Models remain vulnerable to jailbreak attacks that bypass alignment safeguards and elicit harmful outputs. While prior research has proposed various attack strategies differing in human readability and transferability, little attention has been paid to the linguistic and psychological mechanisms that may influence a model's susceptibility to such attacks. In this paper, we examine an interdisciplinary line of research that leverages foundational theories of persuasion from the social sciences to craft adversarial prompts capable of circumventing alignment constraints in LLMs. Drawing on well-established persuasive strategies, we hypothesize that LLMs, having been trained on large-scale human-generated text, may respond more compliantly to prompts with persuasive structures. Furthermore, we investigate whether LLMs themselves exhibit distinct persuasive fingerprints that emerge in their jailbreak responses. Empirical evaluations across multiple aligned LLMs reveal that persuasion-aware prompts significantly bypass safeguards, demonstrating their potential to induce jailbreak behaviors. This work underscores the importance of cross-disciplinary insight in addressing the evolving challenges of LLM safety. The code and data are available.