Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing

📄 arXiv: 2503.21598v1 📥 PDF

作者: Johan Wahréus, Ahmed Hussain, Panos Papadimitratos

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-03-27

备注: 22 pages; 26 figures


💡 一句话要点

提出一种分段分布式提示处理框架,绕过大型语言模型安全过滤器,生成恶意代码。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全过滤器 越狱攻击 恶意代码生成 分布式处理 提示工程 LLM评审 网络安全

📋 核心要点

  1. 大型语言模型安全过滤器存在被绕过的风险,恶意代码生成是主要威胁之一。
  2. 论文提出分段分布式提示处理框架,通过分割、并行处理和聚合来绕过安全机制。
  3. 实验表明,该框架在恶意代码生成方面成功率达73.2%,优于传统评估方法。

📝 摘要(中文)

本文提出了一种新的越狱框架,该框架采用分布式提示处理与迭代优化相结合的方式,以绕过大型语言模型(LLM)中的安全措施,特别是在生成恶意代码方面。该架构包含四个关键模块:提示分割、并行处理、响应聚合和基于LLM的评审评估。在10个网络安全类别中的500个恶意提示上进行测试,该框架在生成恶意代码方面的成功率(SR)达到73.2%。对比分析表明,传统的单LLM评审评估高估了SR(93.8%),而LLM评审系统评估的SR为73.2%。手动验证证实,单评审评估通常接受不完整的实现。此外,消融研究表明,分布式架构比非分布式方法提高了12%的SR,突出了分布式提示处理的有效性以及评估越狱尝试时采用可靠评估方法的重要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的安全过滤器被绕过的问题,特别是针对恶意代码生成。现有方法依赖于单一提示和单次评估,容易被LLM的安全机制检测和阻止。现有评估方法也存在高估成功率的问题,无法准确反映越狱攻击的真实效果。

核心思路:核心思路是将一个完整的恶意提示分割成多个片段,分别提交给多个LLM进行并行处理,然后将各个LLM的响应聚合起来,形成最终的恶意代码。通过这种分布式处理方式,可以降低单个LLM检测到恶意意图的概率,从而绕过安全过滤器。此外,论文还采用LLM评审团进行评估,以更准确地评估越狱攻击的成功率。

技术框架:该框架包含四个主要模块: 1. 提示分割:将原始提示分割成多个子提示。 2. 并行处理:将子提示分发给多个LLM进行并行处理。 3. 响应聚合:将各个LLM的响应聚合起来,形成完整的代码。 4. LLM评审评估:使用LLM评审团对生成的代码进行评估,判断是否成功生成恶意代码。

关键创新:关键创新在于分布式提示处理和LLM评审团评估。分布式提示处理通过分割和并行处理降低了被检测的风险,而LLM评审团评估则提供了更准确的评估结果,避免了传统单LLM评估的高估问题。

关键设计: * 提示分割策略:论文可能采用了不同的提示分割策略,例如基于语义的分割或随机分割。具体策略的选择会影响最终的攻击效果。 * LLM评审团:LLM评审团的规模和组成会影响评估的准确性。论文可能研究了不同规模和组成的评审团对评估结果的影响。 * 响应聚合方法:如何将各个LLM的响应有效地聚合起来,形成完整的代码,也是一个关键的设计问题。论文可能采用了不同的聚合方法,例如基于规则的聚合或基于LLM的聚合。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该框架在生成恶意代码方面的成功率达到73.2%,相比非分布式方法提高了12%。此外,LLM评审团评估的成功率(73.2%)远低于传统的单LLM评估(93.8%),表明单LLM评估存在高估问题。手动验证也证实了单LLM评估容易接受不完整的实现。

🎯 应用场景

该研究成果可应用于网络安全领域,用于评估和改进大型语言模型的安全防护能力。通过模拟攻击,可以发现安全漏洞并进行修复,从而提高LLM的安全性。此外,该研究还可以用于开发更强大的恶意代码检测工具,以应对日益复杂的网络攻击。

📄 摘要(原文)

Large Language Models (LLMs) have transformed task automation and content generation across various domains while incorporating safety filters to prevent misuse. We introduce a novel jailbreaking framework that employs distributed prompt processing combined with iterative refinements to bypass these safety measures, particularly in generating malicious code. Our architecture consists of four key modules: prompt segmentation, parallel processing, response aggregation, and LLM-based jury evaluation. Tested on 500 malicious prompts across 10 cybersecurity categories, the framework achieves a 73.2% Success Rate (SR) in generating malicious code. Notably, our comparative analysis reveals that traditional single-LLM judge evaluation overestimates SRs (93.8%) compared to our LLM jury system (73.2%), with manual verification confirming that single-judge assessments often accept incomplete implementations. Moreover, we demonstrate that our distributed architecture improves SRs by 12% over the non-distributed approach in an ablation study, highlighting both the effectiveness of distributed prompt processing and the importance of robust evaluation methodologies in assessing jailbreak attempts.