REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak

📄 arXiv: 2605.20654v1 📥 PDF

作者: Jiachen Ma, Jiawen Zhang, Xiangtian Li, Bo Zou, Chaochao Lu, Chao Yang

分类: cs.LG, cs.AI

发布日期: 2026-05-20

备注: ICML 2026


💡 一句话要点

REFLECTOR:通过内化逐步反思机制,防御针对大型语言模型的间接越狱攻击

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击防御 自我反思 强化学习 安全对齐 监督微调 轨迹建模

📋 核心要点

  1. 现有大型语言模型易受多步骤越狱攻击,此类攻击绕过表面安全对齐,利用模型内部生成过程。
  2. Reflector框架通过在生成过程中内化自我反思,分为教师引导的监督微调和强化学习两个阶段。
  3. 实验表明,Reflector在防御复杂间接攻击时防御成功率超过90%,并在GSM8K等任务上取得显著提升。

📝 摘要(中文)

大型语言模型(LLMs)展现了卓越的能力,但仍然容易受到复杂的多步骤越狱攻击的影响。这些攻击通过利用内部生成过程,绕过传统的表面安全对齐。为了解决这些漏洞,我们提出了Reflector,这是一个原则性的两阶段框架,它在生成轨迹中内化了自我反思。Reflector首先利用教师引导生成来产生高质量的反思数据,用于监督微调(SFT),从而建立结构化的反思模式。随后,它使用强化学习(RL),结合结果驱动和奖励有效性监督,来灌输强大的、自主的自我反思能力。实验结果表明,Reflector在面对复杂的间接攻击时,防御成功率(DSR)超过90%,同时在各种威胁场景中表现出强大的泛化能力。值得注意的是,该框架增强了任务特定和通用效用,在GSM8K上获得了5.85%的提升,并在知识密集型基准测试中提高了性能。通过内化轨迹级别的安全性,Reflector克服了表面对齐的根本局限性,而没有显著的计算开销,为开发安全且有能力的大型语言模型提供了一种高效且可扩展的解决方案。

🔬 方法详解

问题定义:大型语言模型容易受到多步骤越狱攻击,这些攻击通过精心设计的提示,诱导模型生成有害或不当内容。现有的安全对齐方法主要集中在表面提示过滤或输出审查,难以有效防御利用模型内部生成过程的复杂间接攻击。这些攻击往往通过多轮对话或隐蔽的指令传递来绕过安全机制。

核心思路:Reflector的核心思路是在模型的生成过程中内化自我反思能力。通过让模型在生成内容之前或之后进行反思,识别潜在的风险并进行自我修正,从而提高模型的安全性。这种方法旨在从根本上解决表面对齐的局限性,使模型能够更有效地防御复杂的越狱攻击。

技术框架:Reflector框架包含两个主要阶段:1) 监督微调(SFT):利用教师模型生成高质量的反思数据,然后使用这些数据对学生模型进行微调,使其学习结构化的反思模式。2) 强化学习(RL):使用强化学习来进一步增强模型的自主反思能力。通过设计合适的奖励函数,鼓励模型在生成过程中进行有效的自我反思,并惩罚有害内容的生成。

关键创新:Reflector的关键创新在于将自我反思机制内化到模型的生成轨迹中。与传统的表面对齐方法不同,Reflector关注模型内部的生成过程,通过让模型主动识别和修正潜在的风险,从而提高模型的安全性。此外,Reflector还采用了教师引导生成和强化学习相结合的方法,有效地提高了反思数据的质量和模型的反思能力。

关键设计:在SFT阶段,使用教师模型(例如,一个更强大的安全对齐模型)生成包含问题、初始回答和反思的训练数据。在RL阶段,设计了 outcome-driven 和 reward-validity 两种奖励函数,前者基于生成内容的安全性,后者基于反思过程的有效性。具体而言,outcome-driven 奖励用于惩罚有害内容的生成,reward-validity 奖励用于鼓励模型进行有效的自我反思,例如识别出初始回答中的潜在风险并进行修正。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Reflector在防御复杂间接攻击时,防御成功率(DSR)超过90%,显著优于现有方法。同时,该框架在提升模型安全性的同时,还增强了模型的通用能力,在GSM8K数学推理任务上获得了5.85%的性能提升,并在知识密集型基准测试中表现出更好的性能。这些结果表明,Reflector不仅能够有效防御越狱攻击,还能提升模型的整体性能。

🎯 应用场景

Reflector框架可应用于各种需要安全可靠的大型语言模型应用场景,例如智能助手、聊天机器人、内容生成平台等。通过提高模型防御越狱攻击的能力,可以降低模型被滥用的风险,保护用户免受有害信息的影响,并提升用户对模型的信任度。该研究对于构建更安全、更可靠的人工智能系统具有重要意义。

📄 摘要(原文)

While Large Language Models (LLMs) demonstrate remarkable capabilities, they remain susceptible to sophisticated, multi-step jailbreak attacks that circumvent conventional surface-level safety alignment by exploiting the internal generation process. To address these vulnerabilities, we propose Reflector, a principled two-stage framework that internalizes self-reflection within the generation trajectory. Reflector first leverages teacher-guided generation to produce high-quality reflection data for supervised fine-tuning (SFT), establishing structured reflection patterns. It subsequently uses Reinforcement Learning (RL) with outcome-driven and reward-validity supervision to instill robust, autonomous self-reflection capabilities. Empirical results show that Reflector achieves Defense Success Rates (DSR) exceeding 90% against complex indirect attacks while generalizing robustly across diverse threat scenarios. Notably, the framework enhances both task-specific and general utility, yielding a 5.85% gain on GSM8K alongside improved performance on knowledge-intensive benchmarks. By internalizing trajectory-level safety, Reflector overcomes the fundamental limitations of surface alignment without significant computational overhead, offering an efficient and scalable solution for the development of safe and capable LLMs.