ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models

📄 arXiv: 2410.18491v2 📥 PDF

作者: Hengxiang Zhang, Hongfu Gao, Qiang Hu, Guanhua Chen, Lili Yang, Bingyi Jing, Hongxin Wei, Bing Wang, Haifeng Bai, Lei Yang

分类: cs.CL

发布日期: 2024-10-24 (更新: 2025-04-13)

🔗 代码/项目: HUGGINGFACE | HUGGINGFACE


💡 一句话要点

提出ChineseSafe中文安全基准,评估大型语言模型识别中文语境下不安全内容的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 内容安全 中文基准 安全风险评估 政治敏感性 色情内容 变体词 同音词

📋 核心要点

  1. 现有评估LLM安全性的基准对中文语境下的非法内容识别能力覆盖不足,尤其缺乏针对中国互联网内容审核法规的细粒度评估。
  2. 构建ChineseSafe基准,包含20万+示例,覆盖政治敏感、色情、变体/同音词等中文特有的安全问题,更贴合中国法律法规。
  3. 通过ChineseSafe评估了多种LLM,发现它们在特定安全问题上存在漏洞,可能导致法律风险,为开发者提供安全改进的参考。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,理解LLMs识别不安全内容的能力变得越来越重要。虽然之前的工作已经引入了一些基准来评估LLMs的安全风险,但社区对当前LLMs识别中文语境下非法和不安全内容的能力仍然知之甚少。在这项工作中,我们提出了一个中文安全基准(ChineseSafe),以促进对大型语言模型内容安全的研究。为了与中国互联网内容审核的法规保持一致,我们的ChineseSafe包含205,034个示例,涵盖4个类别和10个子类别的安全问题。对于中文语境,我们添加了几种特殊类型的非法内容:政治敏感性、色情以及变体/同音词。此外,我们采用两种方法来评估流行的LLMs(包括开源模型和API)的法律风险。结果表明,许多LLMs在某些类型的安全问题上表现出脆弱性,从而导致在中国的法律风险。我们的工作为开发人员和研究人员提供了一个指导,以促进LLMs的安全性。我们的结果也可在https://huggingface.co/spaces/SUSTech/ChineseSafe-Benchmark上找到。此外,我们发布了一个包含200,000个示例的测试集,该测试集可在https://huggingface.co/datasets/SUSTech/ChineseSafe上公开访问。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在中文语境下识别不安全内容能力不足的问题。现有方法缺乏针对中文特定安全风险(如政治敏感内容、变体/同音词)的细粒度评估,并且与中国互联网内容审核法规的对齐程度不高,导致LLMs可能产生违反中国法律法规的内容。

核心思路:论文的核心思路是构建一个更全面、更贴合中国法律法规的中文安全基准(ChineseSafe),用于评估LLMs在中文语境下的安全风险。通过该基准,可以更准确地识别LLMs在处理中文不安全内容时的漏洞,并为开发者提供改进方向。

技术框架:ChineseSafe基准包含205,034个示例,涵盖4个主要类别和10个子类别的安全问题。这些类别包括:(1)一般安全问题;(2)政治敏感性;(3)色情;(4)变体/同音词。论文使用两种方法评估LLMs的法律风险:(1)直接评估LLMs生成内容的安全性;(2)评估LLMs对不安全内容的识别能力。

关键创新:该论文的关键创新在于构建了一个专门针对中文语境的安全基准,并考虑了中国互联网内容审核的法规。该基准包含了中文特有的安全风险,如政治敏感内容和变体/同音词,这在之前的英文安全基准中通常没有涉及。

关键设计:ChineseSafe基准的数据收集和标注过程未知。论文使用了两种评估方法,但具体实现细节未知。对于政治敏感性、色情和变体/同音词等特殊类型的非法内容,论文可能采用了特定的数据增强或对抗训练方法,但具体细节未知。

🖼️ 关键图片

fig_0

📊 实验亮点

论文通过ChineseSafe基准评估了多种流行的LLMs,包括开源模型和API。评估结果表明,许多LLMs在处理中文特有的安全问题(如政治敏感内容和变体/同音词)时表现出脆弱性,存在较高的法律风险。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于提升大型语言模型在中文环境下的安全性,降低其产生违反中国法律法规内容的风险。开发者可以利用ChineseSafe基准评估和改进其模型,确保其在中文语境下的合规性。此外,该基准还可以用于开发更有效的中文内容审核系统,维护健康的互联网环境。

📄 摘要(原文)

With the rapid development of Large language models (LLMs), understanding the capabilities of LLMs in identifying unsafe content has become increasingly important. While previous works have introduced several benchmarks to evaluate the safety risk of LLMs, the community still has a limited understanding of current LLMs' capability to recognize illegal and unsafe content in Chinese contexts. In this work, we present a Chinese safety benchmark (ChineseSafe) to facilitate research on the content safety of large language models. To align with the regulations for Chinese Internet content moderation, our ChineseSafe contains 205,034 examples across 4 classes and 10 sub-classes of safety issues. For Chinese contexts, we add several special types of illegal content: political sensitivity, pornography, and variant/homophonic words. Moreover, we employ two methods to evaluate the legal risks of popular LLMs, including open-sourced models and APIs. The results reveal that many LLMs exhibit vulnerability to certain types of safety issues, leading to legal risks in China. Our work provides a guideline for developers and researchers to facilitate the safety of LLMs. Our results are also available at https://huggingface.co/spaces/SUSTech/ChineseSafe-Benchmark. Additionally, we release a test set comprising 200,000 examples, which is publicly accessible at https://huggingface.co/datasets/SUSTech/ChineseSafe.