AlbanianLLMSafety: A Safety Evaluation Dataset for Large Language Models in Albanian

📄 arXiv: 2605.26954v1 📥 PDF

作者: Wajdi Zaghouani, Kholoud K. Aldous, Isra Fejzullaj

分类: cs.CL

发布日期: 2026-05-26

备注: Accepted at SIGUL2026 Workshop co-located with LREC2026


💡 一句话要点

提出AlbanianLLMSafety,首个阿尔巴尼亚语LLM安全评估数据集,促进低资源语言LLM安全。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM安全 低资源语言 阿尔巴尼亚语 安全评估数据集 红队测试

📋 核心要点

  1. 现有LLM安全评估主要集中在高资源语言,忽略了低资源语言的安全风险。
  2. 构建了包含2951个提示的AlbanianLLMSafety数据集,覆盖11个安全类别。
  3. 该数据集为阿尔巴尼亚语LLM的安全评估、微调和红队测试提供了基准。

📝 摘要(中文)

大型语言模型(LLM)的安全评估主要集中在高资源语言上,而低资源语言则严重不足。本文提出了AlbanianLLMSafety,这是首个公开发布的阿尔巴尼亚语LLM安全评估数据集。阿尔巴尼亚语是一种语言上独特的低资源语言,在阿尔巴尼亚、科索沃、北马其顿和散居海外的地区约有750万使用者。该数据集包含2951个提示,涵盖11个安全类别,包括自残、暴力、种族主义内容、儿童剥削和激进化,每个类别平均有268个提示。每个提示都提供阿尔巴尼亚语版本,并附有英语参考翻译和详细的类别标签。该资源填补了低资源语言安全评估基础设施方面的重大空白,并为开发更安全、更具包容性的LLM提供了重要的基准。该数据集将根据要求提供,以支持阿尔巴尼亚语社区的安全评估、微调、红队测试和护栏开发。

🔬 方法详解

问题定义:现有的大型语言模型安全评估数据集主要集中在高资源语言上,缺乏对低资源语言(如阿尔巴尼亚语)的安全评估。这使得针对这些语言开发的LLM可能存在潜在的安全风险,例如生成有害、不当或歧视性内容。现有方法无法有效评估和缓解这些风险。

核心思路:本文的核心思路是构建一个专门针对阿尔巴尼亚语的LLM安全评估数据集,该数据集包含各种安全类别下的提示,可以用于评估LLM在这些类别下的表现,并为后续的安全改进提供数据支持。通过提供高质量的阿尔巴尼亚语安全评估数据,可以促进针对该语言的LLM安全研究和开发。

技术框架:该研究主要围绕数据集的构建展开,没有涉及复杂的模型架构或训练流程。主要的技术框架包括: 1. 安全类别定义:确定需要评估的安全类别,例如自残、暴力、种族主义内容等。 2. 提示生成:为每个安全类别生成相应的阿尔巴尼亚语提示。 3. 数据标注:对每个提示进行标注,包括安全类别标签和英语参考翻译。 4. 数据集发布:公开发布数据集,供研究人员和开发者使用。

关键创新:该论文的关键创新在于构建了首个阿尔巴尼亚语LLM安全评估数据集。这填补了低资源语言LLM安全评估领域的空白,为该领域的研究和开发提供了重要的资源。与现有方法相比,该数据集专门针对阿尔巴尼亚语,能够更准确地评估针对该语言开发的LLM的安全风险。

关键设计:数据集包含2951个提示,涵盖11个安全类别,每个类别平均有268个提示。每个提示都提供阿尔巴尼亚语版本,并附有英语参考翻译和详细的类别标签。数据集的设计旨在覆盖各种潜在的安全风险,并提供足够的数据量以进行有效的评估和微调。具体的参数设置、损失函数、网络结构等技术细节与数据集构建本身关联不大。

📊 实验亮点

AlbanianLLMSafety数据集包含2951个阿尔巴尼亚语提示,覆盖11个安全类别,是首个针对阿尔巴尼亚语LLM的安全评估数据集。每个提示都附带英文翻译和详细的类别标签,为研究人员和开发者提供了宝贵的资源,可用于评估、微调和改进阿尔巴尼亚语LLM的安全性。

🎯 应用场景

该研究成果可广泛应用于阿尔巴尼亚语LLM的安全评估、微调、红队测试和护栏开发。通过使用AlbanianLLMSafety数据集,开发者可以更好地识别和缓解LLM中的安全风险,从而开发出更安全、更具包容性的LLM,服务于阿尔巴尼亚语社区。该数据集的发布也将促进低资源语言LLM安全领域的研究和发展。

📄 摘要(原文)

Safety evaluation of Large Language Models (LLMs) has largely focused on high-resource languages, leaving low-resource languages critically underserved. We present AlbanianLLMSafety, the first publicly available safety evaluation dataset for LLMs in Albanian, a linguistically distinct low-resource language with approximately 7.5 million speakers across Albania, Kosovo, North Macedonia, and the diaspora. The dataset contains 2,951 prompts spanning 11 safety categories, including self-harm, violence, racist content, child exploitation, and radicalization, with an average of 268 prompts per category. Each prompt is provided in Albanian with an English reference translation and a detailed category label. This resource addresses a significant gap in safety evaluation infrastruc-ture for low-resource languages and provides an essential benchmark for developing safer, more inclusive LLMs. The dataset will be provided upon request to support safety evaluation, fine-tuning, red-teaming, and guardrail development for Albanian-speaking communities.