BAIT: Boundary-Guided Disclosure Escalation via Self-Conditioned Reasoning

作者: Xuan Luo, Yue Wang, Geng Tu, Jing Li, Ruifeng Xu

分类: cs.CR, cs.CL

发布日期: 2026-05-26

💡 一句话要点

BAIT：通过自条件推理和边界引导实现大语言模型的越狱攻击

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 安全漏洞 自条件推理 边界引导

📋 核心要点

现有越狱方法难以有效利用大语言模型自身的推理能力，导致攻击成功率受限。
BAIT框架通过迭代地引导模型识别和细化其安全边界，诱导模型逐步披露有害信息。
实验表明，BAIT在多个基准测试中显著提升了越狱攻击的成功率，优于现有方法。

📝 摘要（中文）

本文提出了一种名为BAIT（Boundary-Aware Iterative Trap，边界感知迭代陷阱）的三步越狱框架，该框架通过内部披露逐步逼近恶意目标。BAIT首先要求模型识别其保护边界，然后要求其细化该边界，最后请求一个详细的示例。通过在模型先前响应的基础上扩展每个步骤，BAIT将模型自身的推理和一致性倾向转化为披露途径。在AdvBench、JailbreakBench、AIR-Bench和SORRY-Bench上的实验表明，BAIT在顶级大型语言模型上始终如一地实现了强大的攻击成功率，显著提升了传统的越狱基线。进一步的分析表明：1) 面向预防的框架明显优于直接的知识请求；2) 细化步骤在披露升级中起着关键作用；3) 前两个步骤有一定的几率引出有害内容，同时触发很少的过滤。

🔬 方法详解

问题定义：当前大语言模型（LLM）的越狱攻击旨在绕过模型的安全机制，使其生成有害或不当内容。现有方法通常依赖于直接的提示工程或对抗性示例，但未能充分利用LLM自身的推理能力来逐步突破其安全边界。这些方法在面对防御能力较强的大模型时，攻击成功率往往较低。

核心思路：BAIT的核心思路是将越狱攻击转化为一个逐步披露的过程，通过迭代地引导LLM识别、细化和突破其自身的安全边界。该方法利用LLM的推理能力和一致性倾向，使其在自身推理的驱动下，逐步披露有害信息。这种自条件推理的方式能够更有效地绕过模型的安全过滤机制。

技术框架：BAIT框架包含三个主要步骤： 1. 边界识别（Boundary Identification）：首先，向模型询问其认为的保护边界，例如“什么类型的内容是你被禁止生成的？”。 2. 边界细化（Boundary Refinement）：然后，要求模型进一步细化该边界，例如“请更详细地描述这些限制，并解释原因。”。 3. 示例请求（Example Request）：最后，要求模型提供一个具体的示例，以说明该边界，例如“请给出一个违反这些限制的例子。”。

关键创新：BAIT的关键创新在于其迭代式的自条件推理方法。与直接请求模型生成有害内容不同，BAIT通过逐步引导模型识别和细化其安全边界，将越狱攻击转化为一个披露升级的过程。这种方法能够更有效地利用LLM自身的推理能力，并绕过模型的安全过滤机制。

关键设计：BAIT框架的设计关键在于三个步骤的顺序和内容。首先识别边界，然后细化边界，最后请求示例，这种循序渐进的方式能够逐步引导模型披露有害信息。此外，每个步骤的提示语设计也至关重要，需要能够有效地引导模型进行推理和披露，同时避免触发模型的安全过滤机制。具体的提示语设计可能需要根据不同的LLM进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BAIT在AdvBench、JailbreakBench、AIR-Bench和SORRY-Bench等多个基准测试中，显著提升了越狱攻击的成功率。例如，在某些模型上，BAIT的攻击成功率比现有基线方法提高了超过50%。此外，分析表明，边界细化步骤在披露升级中起着关键作用，并且前两个步骤有一定的几率引出有害内容，同时触发很少的过滤。

🎯 应用场景

BAIT的研究成果可应用于评估和提升大语言模型的安全性。通过使用BAIT进行越狱攻击，可以发现模型潜在的安全漏洞，并为开发更有效的防御机制提供指导。此外，该方法也可以用于研究LLM的推理能力和安全边界，从而更好地理解和控制LLM的行为。

📄 摘要（原文）

In this work, we propose BAIT (Boundary-Aware Iterative Trap), a three-step jailbreak framework that approaches malicious goals through internal disclosure. BAIT first asks the model to identify the protection boundary, then requires it to refine that boundary, and finally requests a detailed example. By expanding each step upon the model's previous responses, BAIT turns the model's own reasoning and consistency tendency into a disclosure pathway. Experiments on AdvBench, JailbreakBench, AIR-Bench, and SORRY-Bench demonstrate that BAIT consistently achieves strong attack success rates across top-tier large language models, significantly advancing conventional jailbreak baselines. Further analysis reveals that: 1) prevention-oriented framing significantly outperforms direct knowledge request; 2) the refinement step plays a critical role in disclosure escalation; and 3) the first two steps have a certain chance of eliciting harmful content while triggering little filtering.

BAIT: Boundary-Guided Disclosure Escalation via Self-Conditioned Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理