CySecBench: Generative AI-based CyberSecurity-focused Prompt Dataset for Benchmarking Large Language Models
作者: Johan Wahréus, Ahmed Mohamed Hussain, Panos Papadimitratos
分类: cs.CR, cs.AI, cs.LG
发布日期: 2025-01-02
💡 一句话要点
提出CySecBench,一个基于生成式AI的、面向网络安全的提示数据集,用于评估大型语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 网络安全 越狱攻击 提示工程 安全评估 生成式AI 数据集 提示混淆
📋 核心要点
- 现有越狱数据集范围宽泛,难以有效评估LLM在特定领域(如网络安全)的安全性。
- CySecBench通过生成并筛选特定领域的提示,并采用封闭式问题,提升评估的一致性和准确性。
- 实验表明,基于提示混淆的越狱方法在CySecBench上表现优异,超越现有方法,验证了数据集的有效性。
📝 摘要(中文)
本研究提出了CySecBench,一个全面的数据集,包含12662个专门设计的提示,用于评估大型语言模型(LLM)在网络安全领域的越狱技术。现有数据集范围广泛且开放性强,难以准确评估越狱效果,尤其是在网络安全等特定领域。CySecBench数据集包含10个不同的攻击类型类别,采用封闭式提示,以实现对越狱尝试更一致和准确的评估。论文详细介绍了数据集的生成和过滤方法,该方法可用于在其他领域创建类似的数据集。为了展示CySecBench的效用,论文提出并评估了一种基于提示混淆的越狱方法。实验结果表明,该方法成功地从商业黑盒LLM中诱导出有害内容,ChatGPT的成功率为65%,Gemini为88%;而Claude表现出更强的抵抗力,越狱成功率为17%。与现有基准方法相比,该方法表现出卓越的性能,突出了领域特定评估数据集在评估LLM安全措施方面的价值。此外,在使用广泛使用的数据集(即AdvBench)中的提示进行评估时,该方法实现了78.5%的成功率,高于最先进的方法。
🔬 方法详解
问题定义:论文旨在解决现有大型语言模型(LLM)越狱评估数据集在网络安全领域缺乏针对性和准确性的问题。现有数据集通常范围广泛,开放性强,难以有效评估LLM在特定领域的安全性,尤其是在网络安全这种对专业知识要求高的领域。这导致了对LLM安全风险的评估不够准确,难以指导LLM安全策略的制定。
核心思路:论文的核心思路是构建一个专门针对网络安全领域的提示数据集,即CySecBench。该数据集包含多种网络安全攻击类型的提示,并且采用封闭式问题,以提高评估的一致性和准确性。通过使用该数据集,可以更有效地评估LLM在网络安全领域的越狱风险,并为LLM安全策略的制定提供更可靠的依据。
技术框架:CySecBench的构建主要包含以下几个阶段: 1. 攻击类型定义:定义了10种不同的网络安全攻击类型,例如代码注入、命令注入等。 2. 提示生成:使用生成式AI模型,根据定义的攻击类型生成大量的提示。 3. 提示过滤:对生成的提示进行过滤,去除不相关或质量不高的提示,确保数据集的质量。 4. 数据集组织:将过滤后的提示按照攻击类型进行组织,形成最终的CySecBench数据集。
关键创新:该论文的关键创新在于构建了一个专门针对网络安全领域的提示数据集,并采用封闭式问题进行评估。与现有数据集相比,CySecBench具有更高的针对性和准确性,可以更有效地评估LLM在网络安全领域的越狱风险。此外,论文还提出了一种基于提示混淆的越狱方法,并在CySecBench上进行了评估,验证了数据集的有效性。
关键设计:数据集包含10种攻击类型,提示生成过程使用了生成式AI模型,并设计了特定的过滤规则来保证数据集质量。提示混淆方法具体细节未知,但实验结果表明其在CySecBench上表现良好。封闭式问题的设计保证了评估结果的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于提示混淆的越狱方法在CySecBench上表现优异,ChatGPT的成功率为65%,Gemini为88%,而Claude为17%。与现有基准方法相比,该方法在CySecBench和AdvBench上均取得了更高的成功率,AdvBench上的成功率达到78.5%,验证了CySecBench的有效性和价值。
🎯 应用场景
CySecBench可用于评估和提升大型语言模型在网络安全领域的安全性。安全厂商和研究人员可以使用该数据集来测试LLM对恶意提示的抵抗能力,并开发更有效的防御机制。此外,该数据集的构建方法可以推广到其他特定领域,为LLM安全评估提供更全面的解决方案。
📄 摘要(原文)
Numerous studies have investigated methods for jailbreaking Large Language Models (LLMs) to generate harmful content. Typically, these methods are evaluated using datasets of malicious prompts designed to bypass security policies established by LLM providers. However, the generally broad scope and open-ended nature of existing datasets can complicate the assessment of jailbreaking effectiveness, particularly in specific domains, notably cybersecurity. To address this issue, we present and publicly release CySecBench, a comprehensive dataset containing 12662 prompts specifically designed to evaluate jailbreaking techniques in the cybersecurity domain. The dataset is organized into 10 distinct attack-type categories, featuring close-ended prompts to enable a more consistent and accurate assessment of jailbreaking attempts. Furthermore, we detail our methodology for dataset generation and filtration, which can be adapted to create similar datasets in other domains. To demonstrate the utility of CySecBench, we propose and evaluate a jailbreaking approach based on prompt obfuscation. Our experimental results show that this method successfully elicits harmful content from commercial black-box LLMs, achieving Success Rates (SRs) of 65% with ChatGPT and 88% with Gemini; in contrast, Claude demonstrated greater resilience with a jailbreaking SR of 17%. Compared to existing benchmark approaches, our method shows superior performance, highlighting the value of domain-specific evaluation datasets for assessing LLM security measures. Moreover, when evaluated using prompts from a widely used dataset (i.e., AdvBench), it achieved an SR of 78.5%, higher than the state-of-the-art methods.