Trojan Horse Prompting: Jailbreaking Conversational Multimodal Models by Forging Assistant Message

作者: Wei Duan, Li Qian

分类: cs.AI

发布日期: 2025-07-07

💡 一句话要点

提出特洛伊木马提示，通过伪造助手消息破解对话多模态模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 会话AI安全 特洛伊木马提示 越狱攻击 多模态模型 对话上下文完整性

📋 核心要点

现有对话模型依赖对话历史进行推理，但缺乏对自身历史发言的验证，存在安全漏洞。
论文提出特洛伊木马提示，通过在对话历史中伪造模型自身发言，注入恶意payload绕过安全机制。
实验表明，该方法在Gemini-2.0上实现了比传统方法更高的攻击成功率，揭示了会话AI安全的根本缺陷。

📝 摘要（中文）

会话界面的兴起通过利用对话历史进行复杂的推理，极大地提高了大型语言模型（LLM）的可用性。然而，这种依赖性引入了一个未被探索的攻击面。本文介绍了一种新颖的越狱技术——特洛伊木马提示。攻击者通过在提供给API的对话历史中伪造模型自身的过去发言来绕过安全机制。恶意payload被注入到模型属性的消息中，然后是一个良性的用户提示，以触发有害内容的生成。这种漏洞源于非对称安全对齐：模型经过广泛的训练以拒绝有害的用户请求，但对它们自己所谓的对话历史缺乏类似的怀疑。这种对其“过去”的隐性信任造成了高影响的漏洞。在谷歌的Gemini-2.0-flash-preview-image-generation上的实验验证表明，特洛伊木马提示比已建立的用户回合越狱方法实现了显著更高的攻击成功率（ASR）。这些发现揭示了现代会话AI安全中的一个根本缺陷，需要从输入级过滤到对会话上下文完整性的鲁棒的协议级验证的范式转变。

🔬 方法详解

问题定义：现有对话式多模态模型依赖于对话历史进行推理，但安全机制主要集中于过滤用户输入，忽略了对模型自身历史发言的验证。这导致模型容易受到攻击，攻击者可以利用模型对自身历史的信任来注入恶意内容。现有方法的痛点在于缺乏对会话上下文完整性的验证机制。

核心思路：论文的核心思路是利用模型对自身历史发言的信任，通过伪造模型自身的历史消息，将恶意payload注入到对话上下文中。当用户随后提出看似无害的提示时，模型会受到之前注入的恶意payload的影响，从而生成有害内容。这种方法的核心在于利用了“非对称安全对齐”的漏洞，即模型对用户输入的安全检查严格，但对自身历史发言的信任度高。

技术框架：特洛伊木马提示攻击主要包含以下几个阶段： 1. Payload注入：攻击者构造包含恶意payload的模型发言，并将其插入到对话历史中。 2. 上下文构建：将包含恶意payload的对话历史作为上下文提供给模型。 3. 触发提示：用户输入一个看似无害的提示，该提示会触发模型基于包含恶意payload的上下文进行推理和生成。 4. 有害内容生成：由于受到恶意payload的影响，模型生成有害或不安全的内容。

关键创新：该方法最重要的创新点在于它利用了模型对自身历史发言的信任，绕过了传统的输入过滤安全机制。与传统的用户回合越狱方法不同，特洛伊木马提示攻击不是直接攻击用户输入，而是通过操纵对话上下文来影响模型的行为。这种攻击方式揭示了会话AI安全的一个新的攻击面，即对话上下文的完整性。

关键设计：论文中没有详细描述具体的参数设置或网络结构，因为该方法主要关注的是攻击策略而非模型本身。关键的设计在于如何构造有效的恶意payload，以及如何将其巧妙地插入到对话历史中，使其能够成功地影响模型的行为。Payload的设计需要考虑到目标模型的特性和安全机制，以确保能够绕过安全检查并触发有害内容的生成。具体的payload设计和插入策略可能需要根据不同的模型和应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，特洛伊木马提示在Google的Gemini-2.0-flash-preview-image-generation模型上实现了比传统用户回合越狱方法更高的攻击成功率（ASR）。这一结果突显了该攻击方法的有效性，并揭示了当前会话AI系统在对话上下文安全方面的不足。具体的性能数据和提升幅度在论文中进行了详细的量化分析。

🎯 应用场景

该研究揭示了会话AI系统中的一个潜在安全漏洞，强调了对话上下文完整性验证的重要性。研究成果可应用于提升对话系统的安全性，例如开发更鲁棒的对话上下文验证机制，防止恶意攻击者通过操纵对话历史来诱导模型生成有害内容。此外，该研究也提醒开发者在设计对话系统时，需要更加关注模型对自身历史发言的信任问题，并采取相应的安全措施。

📄 摘要（原文）

The rise of conversational interfaces has greatly enhanced LLM usability by leveraging dialogue history for sophisticated reasoning. However, this reliance introduces an unexplored attack surface. This paper introduces Trojan Horse Prompting, a novel jailbreak technique. Adversaries bypass safety mechanisms by forging the model's own past utterances within the conversational history provided to its API. A malicious payload is injected into a model-attributed message, followed by a benign user prompt to trigger harmful content generation. This vulnerability stems from Asymmetric Safety Alignment: models are extensively trained to refuse harmful user requests but lack comparable skepticism towards their own purported conversational history. This implicit trust in its "past" creates a high-impact vulnerability. Experimental validation on Google's Gemini-2.0-flash-preview-image-generation shows Trojan Horse Prompting achieves a significantly higher Attack Success Rate (ASR) than established user-turn jailbreaking methods. These findings reveal a fundamental flaw in modern conversational AI security, necessitating a paradigm shift from input-level filtering to robust, protocol-level validation of conversational context integrity.

Trojan Horse Prompting: Jailbreaking Conversational Multimodal Models by Forging Assistant Message

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理