A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos
作者: Yang Yao, Xuan Tong, Ruofan Wang, Yixu Wang, Lujundong Li, Liang Liu, Yan Teng, Yingchun Wang
分类: cs.CR, cs.AI, cs.CL, cs.LG
发布日期: 2025-02-19 (更新: 2025-06-03)
💡 一句话要点
Mousetrap:利用迭代混沌链破解大型推理模型的越狱攻击框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型推理模型 越狱攻击 混沌机器 安全漏洞 对抗性攻击
📋 核心要点
- 现有研究忽略了大型推理模型(LRM)推理过程中的固有缺陷,导致其在越狱攻击下存在安全风险。
- 提出Mousetrap框架,利用混沌机器生成多样化的混沌映射,嵌入推理链以增强攻击的变异性和复杂性。
- 实验表明,Mousetrap在多个基准测试中对包括Claude-Sonnet在内的LRM实现了高成功率的越狱攻击。
📝 摘要(中文)
大型推理模型(LRM)在逻辑推理能力上超越了传统的大型语言模型(LLM),但同时也带来了更高的安全风险。越狱攻击下,LRM生成更具针对性和组织性的内容可能造成更大危害。尽管有研究声称推理能力使LRM更能抵抗现有的LLM攻击,但它们忽略了推理过程本身的缺陷。本文提出了首个针对LRM的越狱攻击,利用其高级推理能力带来的独特漏洞。具体来说,引入了一个混沌机器,通过多样化的一对一映射转换攻击提示。混沌机器迭代生成的混沌映射嵌入到推理链中,增强了变异性和复杂性,并促进了更强大的攻击。基于此,构建了Mousetrap框架,使攻击投射到具有不匹配泛化的非线性低样本空间中。由于更多竞争目标,LRM逐渐保持不可预测的迭代推理惯性,并落入陷阱。在Trotter数据集上,Mousetrap攻击o1-mini、Claude-Sonnet和Gemini-Thinking的成功率分别高达96%、86%和98%。在AdvBench、StrongREJECT和HarmBench等基准测试中,Mousetrap攻击以安全性著称的Claude-Sonnet,成功率分别达到了87.5%、86.58%和93.13%。注意:本文包含不适当、冒犯性和有害的内容。
🔬 方法详解
问题定义:论文旨在解决大型推理模型(LRM)在面对越狱攻击时存在的安全漏洞问题。现有方法未能充分利用LRM推理过程中的缺陷,使得LRM在生成恶意内容时更具针对性和组织性,从而造成更大的危害。现有防御方法也未能有效阻止针对LRM的越狱攻击。
核心思路:论文的核心思路是利用LRM在迭代推理过程中容易陷入混乱和不可预测状态的弱点。通过引入一个混沌机器,将攻击提示转换为多样化的混沌映射,并将其嵌入到推理链中,从而增强攻击的变异性和复杂性,最终诱导LRM生成有害内容。
技术框架:Mousetrap框架主要包含以下几个模块:1) 攻击提示生成模块:用于生成初始的攻击提示。2) 混沌机器:通过多样化的一对一映射转换攻击提示,生成混沌映射。3) 推理链嵌入模块:将混沌映射迭代地嵌入到LRM的推理链中,增强攻击的复杂性。4) LRM:接收带有混沌映射的推理链,并生成最终的输出。5) 评估模块:评估LRM生成的输出是否包含有害内容。
关键创新:论文的关键创新在于提出了混沌机器,并将其与LRM的推理链相结合,从而实现了对LRM的有效越狱攻击。这种方法不同于以往针对LLM的攻击方法,它充分利用了LRM的推理能力,并将其转化为攻击的优势。此外,Mousetrap框架还能够将攻击投射到非线性低样本空间中,进一步增强了攻击的隐蔽性和有效性。
关键设计:混沌机器的设计是关键。具体实现细节未知,但其核心在于生成多样化且一对一的映射,以确保攻击提示在经过转换后仍然能够被LRM理解,同时又能够引入足够的混乱和变异性。论文中提到使用了迭代的方式将混沌映射嵌入到推理链中,这表明可能存在一个迭代次数的参数需要进行调整。此外,如何评估LRM生成的输出是否包含有害内容也是一个重要的设计细节,可能涉及到一些文本分类或内容审核的技术。
🖼️ 关键图片
📊 实验亮点
Mousetrap框架在Trotter数据集上攻击o1-mini、Claude-Sonnet和Gemini-Thinking的成功率分别高达96%、86%和98%。在AdvBench、StrongREJECT和HarmBench等基准测试中,攻击以安全性著称的Claude-Sonnet,Mousetrap的成功率分别达到了87.5%、86.58%和93.13%。这些结果表明Mousetrap框架能够有效地破解LRM的防御机制。
🎯 应用场景
该研究成果可应用于评估和提升大型推理模型的安全性,帮助开发者发现和修复模型中存在的漏洞,从而降低模型被恶意利用的风险。此外,该研究还可以促进对LRM推理过程的深入理解,为开发更安全、可靠的AI系统提供理论指导。
📄 摘要(原文)
Large Reasoning Models (LRMs) have significantly advanced beyond traditional Large Language Models (LLMs) with their exceptional logical reasoning capabilities, yet these improvements introduce heightened safety risks. When subjected to jailbreak attacks, their ability to generate more targeted and organized content can lead to greater harm. Although some studies claim that reasoning enables safer LRMs against existing LLM attacks, they overlook the inherent flaws within the reasoning process itself. To address this gap, we propose the first jailbreak attack targeting LRMs, exploiting their unique vulnerabilities stemming from the advanced reasoning capabilities. Specifically, we introduce a Chaos Machine, a novel component to transform attack prompts with diverse one-to-one mappings. The chaos mappings iteratively generated by the machine are embedded into the reasoning chain, which strengthens the variability and complexity and also promotes a more robust attack. Based on this, we construct the Mousetrap framework, which makes attacks projected into nonlinear-like low sample spaces with mismatched generalization enhanced. Also, due to the more competing objectives, LRMs gradually maintain the inertia of unpredictable iterative reasoning and fall into our trap. Success rates of the Mousetrap attacking o1-mini, Claude-Sonnet and Gemini-Thinking are as high as 96%, 86% and 98% respectively on our toxic dataset Trotter. On benchmarks such as AdvBench, StrongREJECT, and HarmBench, attacking Claude-Sonnet, well-known for its safety, Mousetrap can astonishingly achieve success rates of 87.5%, 86.58% and 93.13% respectively. Attention: This paper contains inappropriate, offensive and harmful content.