KZ-SafetyPrompts: A Kazakh Safety Evaluation Prompt Dataset for Large Language Models

📄 arXiv: 2605.26947v1 📥 PDF

作者: Wajdi Zaghouani, Shimaa Amer Ibrahim, Aruzhan Muratbek, Olzhasbek Zhakenov, Adiya Akhmetzhanova

分类: cs.CL

发布日期: 2026-05-26

备注: Accepted at the SIGUL2026 Workshop co-located with LREC2026


💡 一句话要点

提出KZ-SafetyPrompts:一个用于评估大型语言模型安全性的哈萨克语提示数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全性评估 哈萨克语 提示数据集 低资源语言

📋 核心要点

  1. 现有大型语言模型安全性评估资源中,哈萨克语等低资源语言的数据严重不足。
  2. 论文构建了KZ-SafetyPrompts数据集,包含5717条哈萨克语提示,覆盖11个安全风险类别,旨在弥补这一差距。
  3. 实验表明,使用该数据集评估GPT-4o,能发现仅用英语评估无法捕捉到的特定类别安全漏洞。

📝 摘要(中文)

本文提出了KZ-SafetyPrompts,一个用于评估大型语言模型安全行为的哈萨克语提示数据集。该数据集包含5717个用哈萨克语(西里尔字母)编写的提示,涵盖了11个类别的常见风险领域,如自残、暴力、儿童剥削、性内容、种族主义内容、激进化以及受管制商品或非法活动。这些提示模仿了真实用户的查询,通常采用青少年或儿童的风格,并以意图提示的形式呈现,不包含程序性指令。论文详细描述了编写协议、标注程序(包括边界情况决策规则)和质量控制步骤(模式标准化、完整性检查和去重)。同时,还将类别与广泛使用的安全分类法对齐,以支持与现有评估流程的集成。使用GPT-4o的基线结果显示,总体拒绝率为28.2%,不同类别之间的拒绝率从5.5%到53.8%不等,表明哈萨克语提示暴露了仅用英语评估无法捕捉到的特定类别安全漏洞。

🔬 方法详解

问题定义:当前大型语言模型(LLM)的安全评估主要集中在高资源语言(如英语)上,对于哈萨克语等低资源语言,缺乏足够的数据集来评估LLM在这些语言环境下的安全行为。这导致LLM在处理哈萨克语相关内容时,可能存在潜在的安全风险,例如生成有害、不当或非法内容。现有方法无法有效识别和缓解这些风险,因为它们主要基于英语数据集进行训练和评估。

核心思路:论文的核心思路是构建一个高质量的哈萨克语提示数据集,用于评估LLM在处理哈萨克语时的安全性。通过使用该数据集对LLM进行评估,可以识别其在哈萨克语环境下的安全漏洞,并为后续的安全改进提供指导。该数据集的设计模仿真实用户的查询,特别是青少年和儿童的风格,以更真实地模拟实际使用场景。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 提示编写:由母语为哈萨克语的人员编写提示,涵盖11个安全风险类别。2) 提示翻译:将哈萨克语提示翻译成英语,用于跨语言分析。3) 提示标注:对提示进行标注,判断其是否违反安全规则。4) 质量控制:进行模式标准化、完整性检查和去重等质量控制步骤,确保数据集的质量。5) 基线评估:使用GPT-4o等LLM对数据集进行评估,计算拒绝率等指标。

关键创新:该论文的关键创新在于构建了首个专门用于评估LLM在哈萨克语环境下安全性的提示数据集。该数据集的特点包括:1) 提示的多样性:涵盖了11个安全风险类别,包括自残、暴力、儿童剥削等。2) 提示的真实性:模仿真实用户的查询,特别是青少年和儿童的风格。3) 提示的意图性:以意图提示的形式呈现,不包含程序性指令。

关键设计:在数据集构建过程中,论文采用了以下关键设计:1) 编写协议:制定了详细的编写协议,确保提示的一致性和质量。2) 标注程序:制定了明确的标注程序,包括边界情况决策规则,确保标注的准确性。3) 质量控制步骤:采用了多种质量控制步骤,包括模式标准化、完整性检查和去重,确保数据集的质量。4) 类别对齐:将类别与广泛使用的安全分类法对齐,以支持与现有评估流程的集成。

📊 实验亮点

使用GPT-4o对KZ-SafetyPrompts数据集进行基线评估,总体拒绝率为28.2%,不同类别之间的拒绝率从5.5%到53.8%不等。结果表明,哈萨克语提示暴露了仅用英语评估无法捕捉到的特定类别安全漏洞,强调了构建多语言安全评估数据集的重要性。

🎯 应用场景

该研究成果可应用于提升大型语言模型在哈萨克语环境下的安全性,减少有害内容的生成。该数据集可作为评估和改进LLM安全性的基准,并促进跨语言安全研究。此外,该数据集的构建方法可推广到其他低资源语言,从而提升全球范围内LLM的安全性。

📄 摘要(原文)

Kazakh is underrepresented in resources for evaluating the safety behavior of large language models. We present KZ-SafetyPrompts, a Kazakh prompt dataset for safety evaluation across eleven categories covering common risk areas such as self-harm, violence, child exploitation, sexual content, racist content, radicalization, and regulated goods or illegal activities. The dataset contains 5,717 prompts written natively in Kazakh (Cyrillic), organized by category, with English translations for cross-lingual analysis. Prompts resemble realistic user queries, often in a teen or child style, and are phrased as intent prompts without procedural instructions. We document the writing protocol, labeling procedures (including borderline-case decision rules), and quality-control steps (schema standardization, completeness checks, and deduplication). We also align the categories with widely used safety taxonomies to support integration with existing evaluation pipelines. Baseline results with GPT-4o show an overall refusal rate of 28.2%, varying from 5.5% to 53.8% across categories, indicating that Kazakh prompts expose category-specific safety gaps not captured by English-only evaluation.