Jailbreaking Frontier Foundation Models Through Intention Deception
作者: Xinhe Wang, Katia Sycara, Yaqi Xie
分类: cs.CR, cs.AI, cs.CL
发布日期: 2026-04-27
备注: Accepted at CVPR 2026 Findings Track
💡 一句话要点
提出基于意图欺骗的多轮对话攻击方法,破解前沿大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 越狱攻击 意图欺骗 多轮对话 安全漏洞 Para-jailbreaking 模型安全性
📋 核心要点
- 现有大模型安全训练依赖于区分用户意图,但攻击者可以通过混淆意图绕过防御,导致模型脆弱。
- 该方法通过多轮对话逐步建立信任,模拟良性意图,利用模型一致性引导其生成有害内容。
- 实验表明,该方法能有效攻击GPT-5等前沿模型,并发现了一种新的para-jailbreaking漏洞。
📝 摘要(中文)
大型(视觉-)语言模型展现出卓越能力,但仍极易受到越狱攻击。现有的安全训练方法旨在让模型学习安全和不安全之间的拒绝边界,但这往往导致脆弱性,因为用户意图难以可靠评估,尤其是在攻击者混淆其意图时。为了应对这一问题,GPT-5等前沿模型已从基于拒绝的安全措施转向安全完成,旨在最大限度地提高帮助性,同时遵守安全约束。然而,当用户假装其意图是良性时,安全完成可能会被利用。本文提出了一种新的多轮越狱方法,通过模拟良性意图并利用模型的一致性,逐步建立对话信任,最终引导目标模型输出有害的详细信息。此外,还发现了一种新的模型漏洞,称为para-jailbreaking,即模型可能不会直接回复有害信息,但其揭示的信息仍然有害。该方法在GPT-5-thinking和Claude-Sonnet-4.5等前沿模型上取得了很高的成功率,并优于最先进的模型。
🔬 方法详解
问题定义:论文旨在解决前沿大语言模型(如GPT-5)在面对意图欺骗攻击时的脆弱性问题。现有安全机制依赖于识别用户意图,但攻击者可以通过伪装意图绕过这些防御,使得模型在安全性和实用性之间难以平衡。尤其是在多轮对话中,攻击者有更多机会强化其虚假的良性意图,从而诱导模型产生有害输出。
核心思路:论文的核心思路是利用多轮对话逐步建立模型对攻击者意图的信任。通过模拟看似无害的意图,并巧妙地利用模型在对话中的一致性,攻击者可以逐渐引导模型偏离安全边界,最终生成有害的详细信息。这种方法的核心在于欺骗模型,使其相信攻击者的意图是良性的,从而放松安全限制。
技术框架:该方法主要包含以下几个阶段:1) 初始化:攻击者首先与目标模型建立对话,并设定一个看似无害的初始意图。2) 信任建立:在后续对话中,攻击者逐步强化其良性意图,例如通过提出相关问题或提供看似无害的信息。3) 意图反转:当模型对攻击者的意图产生信任后,攻击者开始逐渐引导模型生成有害内容,例如通过提出更具挑战性的问题或提供误导性信息。4) 漏洞利用:攻击者利用模型的一致性,确保模型在后续对话中继续生成与有害内容相关的信息。
关键创新:该方法的主要创新点在于:1) 提出了一种新的多轮对话攻击方法,能够有效绕过前沿大语言模型的安全防御。2) 发现了一种新的模型漏洞,称为para-jailbreaking,即模型可能不会直接回复有害信息,但其揭示的信息仍然有害。3) 强调了意图欺骗在攻击大语言模型中的重要性,并提供了一种系统性的方法来利用这种漏洞。
关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构,因为该方法主要关注的是攻击策略而非模型本身。关键的设计在于如何巧妙地构建多轮对话,以逐步建立模型对攻击者意图的信任,并最终引导模型生成有害内容。这需要攻击者具备一定的领域知识和对话技巧,以便能够有效地模拟良性意图并利用模型的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在GPT-5-thinking和Claude-Sonnet-4.5等前沿模型上取得了很高的成功率,证明了其有效性。此外,该方法还发现了一种新的para-jailbreaking漏洞,揭示了现有安全机制的不足。在多模态VLM模型上的实验也表明,该方法优于现有的最先进模型,进一步验证了其优越性。
🎯 应用场景
该研究成果可应用于评估和改进大语言模型的安全性,帮助开发者发现潜在的安全漏洞并采取相应的防御措施。此外,该研究也提醒用户在使用大语言模型时需要保持警惕,避免受到恶意攻击者的欺骗。未来的研究可以探索更有效的防御方法,例如通过增强模型对用户意图的理解能力,或通过引入更严格的安全审查机制。
📄 摘要(原文)
Large (vision-)language models exhibit remarkable capability but remain highly susceptible to jailbreaking. Existing safety training approaches aim to have the model learn a refusal boundary between safe and unsafe, based on the user's intent. It has been found that this binary training regime often leads to brittleness, since the user intent cannot reliably be evaluated, especially if the attacker obfuscates their intent, and also makes the system seem unhelpful. In response, frontier models, such as GPT-5, have shifted from refusal-based safeguards to safe completion, that aims to maximize helpfulness while obeying safety constraints. However, safe completion could be exploited when a user pretends their intention is benign. Specifically, this intent inversion would be effective in multi-turn conversation, where the attacker has multiple opportunities to reinforce their deceptively benign intent. In this work, we introduce a novel multi-turn jailbreaking method that exploits this vulnerability. Our approach gradually builds conversational trust by simulating benign-seeming intentions and by exploiting the consistency property of the model, ultimately guiding the target model toward harmful, detailed outputs. Most crucially, our approach also uncovered an additional class of model vulnerability that we call para-jailbreaking that has been unnoticed up to now. Para-jailbreaking describes the situation where the model may not reveal harmful direct reply to the attack query, however the information that it reveals is nevertheless harmful. Our contributions are threefold. First, it achieves high success rates against frontier models including GPT-5-thinking and Claude-Sonnet-4.5. Second, our approach revealed and addressed para-jailbreaking harmful output. Third, experiments on multimodal VLM models showed that our approach outperformed state-of-the-art models.