Beyond English and Evasion: A Human-Annotated Multi-Domain Benchmark for High-Stakes LLM Safety Evaluation in Chinese

📄 arXiv: 2605.29667v1 📥 PDF

作者: Wajdi Zaghouani, Kholoud K. Aldous, Yicheng Gao

分类: cs.CL

发布日期: 2026-05-28

期刊: Proceedings of The fourth international workshop on the role of resources in the age of large language models RESOURCEFUL-2026 at LREC 2026, Palma de Mallorca, Spain, 2026


💡 一句话要点

提出ChiSafe-PAS:一个中文多领域对抗性提示基准,用于评估大语言模型的安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型安全 中文对抗性提示 安全基准 人工标注 风险评估

📋 核心要点

  1. 现有LLM安全系统在英语环境中表现良好,但在中文环境中失效,无法有效应对中文特有的规避技术。
  2. 论文提出ChiSafe-PAS基准,包含1897个对抗性中文提示,覆盖自残、毒品、欺诈和讽刺等高风险领域。
  3. 该数据集包含详细的人工标注,包括响应标签、混淆分类、风险等级和注释者理由,旨在提升LLM的中文安全对齐。

📝 摘要(中文)

当大型语言模型(LLMs)部署于中文语境时,出现了一个令人不安的模式:在英语中表现良好的安全系统失效。这些系统难以跨越语言和文化边界,使得模型容易受到利用中文特有规避技术的对抗性提示攻击,包括拼音罗马化、字符分解、网络俚语和语气缓和。为了解决这一差距,我们引入了ChiSafe-PAS(中文安全试点注释集),这是一个人工注释的基准,包含1,897个跨越四个高风险领域的对抗性中文提示:自残和暴力、毒品和非法交易、欺诈和讽刺。其中,1,544个条目带有完整的黄金标准注释:一个三类响应标签(拒绝、安全重定向、响应)、一个九类混淆分类、一个风险等级评级和一个注释者理由。我们详细描述了数据集设计、注释过程和混淆分类。我们的主要目标是实际的:为研究社区提供一个高质量的、具有文化基础的资源,用于评估LLM安全对齐。在此过程中,我们探讨了该领域的三个更广泛的紧张关系:训练和评估数据之间模糊的界限、基于现实世界风险的领域覆盖的需求,以及规模作为文化专业知识替代品的局限性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在中文环境下的安全对齐问题。现有的安全系统在英语环境下有效,但在中文环境下失效,无法有效识别和防御利用中文特有规避技术的对抗性提示。这些规避技术包括拼音罗马化、字符分解、网络俚语和语气缓和等,使得LLMs容易受到恶意利用,造成潜在危害。

核心思路:论文的核心思路是构建一个高质量、具有文化基础的中文对抗性提示基准数据集ChiSafe-PAS。通过人工标注,为每个提示提供详细的安全评估信息,包括响应标签、混淆分类、风险等级和注释者理由。该数据集旨在为研究社区提供一个可靠的资源,用于评估和提升LLMs在中文环境下的安全对齐能力。

技术框架:ChiSafe-PAS的构建流程主要包括以下几个阶段:1) 领域选择:选择自残和暴力、毒品和非法交易、欺诈和讽刺等四个高风险领域。2) 提示收集:收集1897个对抗性中文提示,涵盖各种规避技术。3) 人工标注:由专业注释员对每个提示进行标注,包括:a) 响应标签(REFUSE, SAFE-REDIRECT, RESPOND);b) 混淆分类(九类);c) 风险等级;d) 注释者理由。4) 数据集发布:发布带有完整标注的ChiSafe-PAS数据集,供研究社区使用。

关键创新:该论文的关键创新在于构建了一个专门针对中文环境的对抗性提示基准数据集,并进行了详细的人工标注。与现有的英文数据集相比,ChiSafe-PAS考虑了中文特有的规避技术和文化背景,能够更准确地评估LLMs在中文环境下的安全性能。此外,该数据集还提供了丰富的标注信息,包括混淆分类和注释者理由,有助于研究人员深入理解LLMs的安全漏洞。

关键设计:在数据集中,混淆分类是一个关键设计。论文定义了九种混淆类别,用于描述对抗性提示中使用的规避技术,包括:拼音、字符分解、谐音、缩写、俚语、隐喻、双关语、语气缓和和上下文操纵。此外,风险等级的标注也至关重要,它反映了对抗性提示可能造成的潜在危害程度。注释者理由则提供了对标注结果的解释,有助于提高数据集的可靠性和可解释性。

📊 实验亮点

ChiSafe-PAS数据集包含1897个对抗性中文提示,其中1544个条目带有完整的黄金标准注释,包括三类响应标签、九类混淆分类、风险等级和注释者理由。该数据集的构建考虑了中文特有的规避技术和文化背景,能够更准确地评估LLMs在中文环境下的安全性能。

🎯 应用场景

该研究成果可应用于提升中文LLM的安全性,例如:开发更有效的安全过滤机制,防止模型生成有害内容;训练更鲁棒的模型,使其能够识别和防御各种规避技术;评估和比较不同LLM的安全性能。此外,该数据集还可以用于研究中文特有的安全漏洞,为未来的安全研究提供指导。

📄 摘要(原文)

When Large Language Models (LLMs) are deployed in Chinese-language settings, a troubling pattern emerges: safety systems that work well in English break down. These systems struggle to cross linguistic and cultural bound-aries, leaving models exposed to adversarial prompts that exploit Chinese-specific evasion techniques, including Pinyin romanization, character decomposition, internet slang, and hedging tone. To address this gap, we introduce ChiSafe-PAS (Chinese Safety Pilot Annotation Set), a human-annotated benchmark of 1,897 adversarial Chinese prompts spanning four high-stakes domains: self-harm and violence, drug and illicit trade, fraud, and satire. Of these, 1,544 entries carry complete gold-standard annotations: a 3-class response label (REFUSE, SAFE-REDIRECT, RESPOND), a nine-category obfuscation taxonomy, a risk-level rating, and annotator rationale. We describe the dataset design, annotation process, and obfuscation taxonomy in detail. Our primary goal is practical: to give the research community a high-quality, culturally grounded resource for benchmarking LLM safety alignment. In doing so, we engage three broader tensions in the field: the blurring boundary between training and evaluation data, the need for domain coverage grounded in real-world risk, and the limits of scale as a substitute for cultural expertise.