JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language Models
作者: Shuyi Liu, Simiao Cui, Haoran Bu, Yuming Shang, Xi Zhang
分类: cs.CL, cs.AI
发布日期: 2025-02-26
备注: 12 pages, 5 figures, accepted at PAKDD 2025
🔗 代码/项目: GITHUB
💡 一句话要点
JailBench:首个全面的中文安全评估基准,用于评估大型语言模型的深层漏洞
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全评估 中文基准 越狱攻击 自动提示工程
📋 核心要点
- 现有中文安全评估基准难以有效揭示大型语言模型(LLMs)的深层安全漏洞。
- 提出JailBench,一个全面的中文安全评估基准,采用自动越狱提示工程框架(AJPE)高效构建。
- 实验表明,JailBench能有效识别主流LLMs的潜在漏洞,并在攻击成功率上优于现有中文基准。
📝 摘要(中文)
大型语言模型(LLMs)在各种应用中展现出卓越的能力,这也突显了全面安全评估的迫切需求。特别是,LLMs增强的中文语言能力,结合中文表达的独特性和复杂性,推动了针对中文的安全评估基准的出现。然而,这些基准通常未能有效揭示LLM的安全漏洞。为了解决这一差距,我们推出了JailBench,这是首个全面的中文基准,用于评估LLMs的深层漏洞,其特点是针对中文语境量身定制的精细分层安全分类法。为了提高生成效率,我们采用了一种新颖的自动越狱提示工程师(AJPE)框架来构建JailBench,该框架结合了越狱技术以增强评估有效性,并利用LLMs通过上下文学习自动扩展数据集。所提出的JailBench在13个主流LLMs上进行了广泛评估,并且与现有的中文基准相比,实现了针对ChatGPT的最高攻击成功率,突显了其在识别LLMs潜在漏洞方面的有效性,并说明了中文语境下LLMs的安全性和可信度方面仍有很大的改进空间。我们的基准已在https://github.com/STAIR-BUPT/JailBench上公开。
🔬 方法详解
问题定义:论文旨在解决现有中文LLM安全评估基准无法有效检测深层安全漏洞的问题。现有基准在揭示LLM的潜在风险方面存在不足,无法充分评估LLM在中文语境下的安全性和可信度。
核心思路:论文的核心思路是构建一个更全面、更有效的中文安全评估基准,即JailBench。该基准通过精细的分层安全分类法和自动越狱提示工程(AJPE)框架,能够更深入地挖掘LLM的潜在漏洞,从而提高安全评估的准确性和效率。
技术框架:JailBench的构建主要包含两个阶段:1) 安全分类体系构建:针对中文语境,构建精细的分层安全分类体系,涵盖各种潜在的安全风险。2) 数据集构建:利用AJPE框架自动生成大量具有挑战性的越狱提示,用于测试LLM的安全性。AJPE框架利用LLM的上下文学习能力,自动扩展数据集,提高生成效率。
关键创新:论文的关键创新在于提出了自动越狱提示工程(AJPE)框架。AJPE框架能够自动生成有效的越狱提示,从而更有效地测试LLM的安全性。此外,JailBench是首个全面的中文安全评估基准,填补了该领域的空白。
关键设计:AJPE框架的关键设计包括:1) 利用LLM的上下文学习能力,通过少量种子提示生成大量变体。2) 采用越狱技术,例如对抗性提示和语义混淆,增强提示的攻击性。3) 对生成的提示进行过滤和筛选,确保其有效性和多样性。
🖼️ 关键图片
📊 实验亮点
JailBench在13个主流LLMs上进行了广泛评估,结果表明,JailBench能够有效识别LLMs的潜在漏洞,并且与现有的中文基准相比,实现了针对ChatGPT的最高攻击成功率。这表明JailBench在评估LLM安全性方面具有显著优势。
🎯 应用场景
JailBench可应用于评估和提升大型语言模型在中文语境下的安全性。该基准能够帮助开发者识别LLM的潜在漏洞,并采取相应的安全措施,从而提高LLM的可靠性和可信度。此外,JailBench还可以用于指导LLM的安全训练和优化,使其更好地适应中文环境。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable capabilities across various applications, highlighting the urgent need for comprehensive safety evaluations. In particular, the enhanced Chinese language proficiency of LLMs, combined with the unique characteristics and complexity of Chinese expressions, has driven the emergence of Chinese-specific benchmarks for safety assessment. However, these benchmarks generally fall short in effectively exposing LLM safety vulnerabilities. To address the gap, we introduce JailBench, the first comprehensive Chinese benchmark for evaluating deep-seated vulnerabilities in LLMs, featuring a refined hierarchical safety taxonomy tailored to the Chinese context. To improve generation efficiency, we employ a novel Automatic Jailbreak Prompt Engineer (AJPE) framework for JailBench construction, which incorporates jailbreak techniques to enhance assessing effectiveness and leverages LLMs to automatically scale up the dataset through context-learning. The proposed JailBench is extensively evaluated over 13 mainstream LLMs and achieves the highest attack success rate against ChatGPT compared to existing Chinese benchmarks, underscoring its efficacy in identifying latent vulnerabilities in LLMs, as well as illustrating the substantial room for improvement in the security and trustworthiness of LLMs within the Chinese context. Our benchmark is publicly available at https://github.com/STAIR-BUPT/JailBench.