CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models
作者: Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Meijuan An, Bikun Yang, KaiKai Zhao, Kai Wang, Shiguo Lian
分类: cs.CL, cs.AI
发布日期: 2024-06-14 (更新: 2024-09-02)
备注: 16 pages, 5 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出CHiSafetyBench,用于评估中文大语言模型安全性的分层基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中文安全基准 大型语言模型 风险识别 安全评估 分层分类 自动评估 风险内容 拒绝回答
📋 核心要点
- 现有中文LLM安全评估缺乏基准,安全分类法不完善,难以全面检测真实中文场景下的风险。
- CHiSafetyBench构建分层中文安全分类数据集,包含多选题和问答题,评估风险识别和拒绝回答能力。
- 实验验证了自动评估的可行性,并揭示了主流中文LLM在不同安全领域表现的差异与改进空间。
📝 摘要(中文)
随着大型语言模型(LLMs)的深入发展,其安全性问题日益受到关注。然而,目前针对LLMs的中文安全基准测试集非常稀缺,并且现有的安全分类法不够完善,缺乏在真实中文场景中的全面安全检测能力。本文提出了CHiSafetyBench,一个专门用于评估LLMs在中文语境下识别风险内容和拒绝回答风险问题能力的安全性基准。CHiSafetyBench包含一个数据集,该数据集涵盖了由5个风险领域和31个类别组成的分层中文安全分类法。该数据集包含两种类型的任务:多项选择题和问答题,分别从风险内容识别和拒绝回答风险问题的能力两个角度评估LLMs。利用该基准,我们验证了自动评估作为人工评估替代方案的可行性,并对主流中文LLMs进行了全面的自动安全评估。实验结果表明,不同模型在不同安全领域的表现各不相同,表明所有模型在中文安全能力方面都具有相当大的改进潜力。我们的数据集已在https://github.com/UnicomAI/UnicomBenchmark/tree/main/CHiSafetyBench上公开。
🔬 方法详解
问题定义:当前中文大型语言模型(LLMs)的安全评估面临缺乏专门的中文安全基准测试集的问题。现有的安全分类方法不够全面,无法充分覆盖真实中文场景中存在的各种风险。这使得评估LLMs在中文语境下识别和规避风险内容的能力变得困难。现有方法依赖人工评估,成本高且效率低。
核心思路:CHiSafetyBench的核心思路是构建一个分层的中文安全基准,该基准包含一个全面的风险分类体系,并提供多项选择和问答两种类型的任务,以从不同角度评估LLMs的安全性。通过自动化的评估流程,降低评估成本,提高评估效率。
技术框架:CHiSafetyBench的技术框架主要包括以下几个部分:1) 构建分层中文安全分类体系,包含5个风险领域和31个类别;2) 基于该分类体系,构建包含多项选择题和问答题的数据集;3) 设计自动评估流程,利用该数据集评估LLMs的风险识别和拒绝回答能力;4) 分析评估结果,识别LLMs在不同安全领域的优缺点。
关键创新:CHiSafetyBench的关键创新在于:1) 提出了一个专门针对中文LLMs的分层安全基准,填补了中文安全评估领域的空白;2) 构建了一个包含多项选择题和问答题的数据集,可以从不同角度评估LLMs的安全性;3) 验证了自动评估作为人工评估替代方案的可行性,降低了评估成本,提高了评估效率。
关键设计:CHiSafetyBench的关键设计包括:1) 分层安全分类体系的设计,确保能够全面覆盖各种风险类型;2) 多项选择题和问答题的设计,确保能够从不同角度评估LLMs的安全性;3) 自动评估流程的设计,确保能够高效、准确地评估LLMs的安全性。具体的参数设置、损失函数、网络结构等技术细节未在摘要中提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同的中文LLMs在CHiSafetyBench上表现出不同的安全性能,突显了模型在不同安全领域存在的差距。所有被评估的模型在中文安全能力方面都存在显著的改进空间,表明CHiSafetyBench能够有效区分不同模型的安全水平,并为模型改进提供指导。
🎯 应用场景
CHiSafetyBench可用于评估和提升中文大型语言模型的安全性,帮助开发者识别和修复模型中的安全漏洞。该基准还可应用于安全风险检测、内容审核、智能客服等领域,降低模型被恶意利用的风险,提升用户体验,促进人工智能技术的健康发展。
📄 摘要(原文)
With the profound development of large language models(LLMs), their safety concerns have garnered increasing attention. However, there is a scarcity of Chinese safety benchmarks for LLMs, and the existing safety taxonomies are inadequate, lacking comprehensive safety detection capabilities in authentic Chinese scenarios. In this work, we introduce CHiSafetyBench, a dedicated safety benchmark for evaluating LLMs' capabilities in identifying risky content and refusing answering risky questions in Chinese contexts. CHiSafetyBench incorporates a dataset that covers a hierarchical Chinese safety taxonomy consisting of 5 risk areas and 31 categories. This dataset comprises two types of tasks: multiple-choice questions and question-answering, evaluating LLMs from the perspectives of risk content identification and the ability to refuse answering risky questions respectively. Utilizing this benchmark, we validate the feasibility of automatic evaluation as a substitute for human evaluation and conduct comprehensive automatic safety assessments on mainstream Chinese LLMs. Our experiments reveal the varying performance of different models across various safety domains, indicating that all models possess considerable potential for improvement in Chinese safety capabilities. Our dataset is publicly available at https://github.com/UnicomAI/UnicomBenchmark/tree/main/CHiSafetyBench.