AlbanianLLMSafety: A Safety Evaluation Dataset for Large Language Models in Albanian

作者: Wajdi Zaghouani, Kholoud K. Aldous, Isra Fejzullaj

分类: cs.CL

发布日期: 2026-05-26

备注: Accepted at SIGUL2026 Workshop co-located with LREC2026

💡 一句话要点

提出AlbanianLLMSafety，首个阿尔巴尼亚语LLM安全评估数据集，促进低资源语言LLM安全。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM安全 低资源语言 阿尔巴尼亚语 安全评估数据集 红队测试

📋 核心要点

现有LLM安全评估主要集中在高资源语言，忽略了低资源语言的安全风险。
构建了包含2951个提示的AlbanianLLMSafety数据集，覆盖11个安全类别。
该数据集为阿尔巴尼亚语LLM的安全评估、微调和红队测试提供了基准。

📝 摘要（中文）

大型语言模型（LLM）的安全评估主要集中在高资源语言上，而低资源语言则严重不足。本文提出了AlbanianLLMSafety，这是首个公开发布的阿尔巴尼亚语LLM安全评估数据集。阿尔巴尼亚语是一种语言上独特的低资源语言，在阿尔巴尼亚、科索沃、北马其顿和散居海外的地区约有750万使用者。该数据集包含2951个提示，涵盖11个安全类别，包括自残、暴力、种族主义内容、儿童剥削和激进化，每个类别平均有268个提示。每个提示都提供阿尔巴尼亚语版本，并附有英语参考翻译和详细的类别标签。该资源填补了低资源语言安全评估基础设施方面的重大空白，并为开发更安全、更具包容性的LLM提供了重要的基准。该数据集将根据要求提供，以支持阿尔巴尼亚语社区的安全评估、微调、红队测试和护栏开发。

🔬 方法详解

问题定义：现有的大型语言模型安全评估数据集主要集中在高资源语言上，缺乏对低资源语言（如阿尔巴尼亚语）的安全评估。这使得针对这些语言开发的LLM可能存在潜在的安全风险，例如生成有害、不当或歧视性内容。现有方法无法有效评估和缓解这些风险。

核心思路：本文的核心思路是构建一个专门针对阿尔巴尼亚语的LLM安全评估数据集，该数据集包含各种安全类别下的提示，可以用于评估LLM在这些类别下的表现，并为后续的安全改进提供数据支持。通过提供高质量的阿尔巴尼亚语安全评估数据，可以促进针对该语言的LLM安全研究和开发。

技术框架：该研究主要围绕数据集的构建展开，没有涉及复杂的模型架构或训练流程。主要的技术框架包括： 1. 安全类别定义：确定需要评估的安全类别，例如自残、暴力、种族主义内容等。 2. 提示生成：为每个安全类别生成相应的阿尔巴尼亚语提示。 3. 数据标注：对每个提示进行标注，包括安全类别标签和英语参考翻译。 4. 数据集发布：公开发布数据集，供研究人员和开发者使用。

关键创新：该论文的关键创新在于构建了首个阿尔巴尼亚语LLM安全评估数据集。这填补了低资源语言LLM安全评估领域的空白，为该领域的研究和开发提供了重要的资源。与现有方法相比，该数据集专门针对阿尔巴尼亚语，能够更准确地评估针对该语言开发的LLM的安全风险。

关键设计：数据集包含2951个提示，涵盖11个安全类别，每个类别平均有268个提示。每个提示都提供阿尔巴尼亚语版本，并附有英语参考翻译和详细的类别标签。数据集的设计旨在覆盖各种潜在的安全风险，并提供足够的数据量以进行有效的评估和微调。具体的参数设置、损失函数、网络结构等技术细节与数据集构建本身关联不大。

📊 实验亮点

AlbanianLLMSafety数据集包含2951个阿尔巴尼亚语提示，覆盖11个安全类别，是首个针对阿尔巴尼亚语LLM的安全评估数据集。每个提示都附带英文翻译和详细的类别标签，为研究人员和开发者提供了宝贵的资源，可用于评估、微调和改进阿尔巴尼亚语LLM的安全性。

🎯 应用场景

该研究成果可广泛应用于阿尔巴尼亚语LLM的安全评估、微调、红队测试和护栏开发。通过使用AlbanianLLMSafety数据集，开发者可以更好地识别和缓解LLM中的安全风险，从而开发出更安全、更具包容性的LLM，服务于阿尔巴尼亚语社区。该数据集的发布也将促进低资源语言LLM安全领域的研究和发展。

📄 摘要（原文）

Safety evaluation of Large Language Models (LLMs) has largely focused on high-resource languages, leaving low-resource languages critically underserved. We present AlbanianLLMSafety, the first publicly available safety evaluation dataset for LLMs in Albanian, a linguistically distinct low-resource language with approximately 7.5 million speakers across Albania, Kosovo, North Macedonia, and the diaspora. The dataset contains 2,951 prompts spanning 11 safety categories, including self-harm, violence, racist content, child exploitation, and radicalization, with an average of 268 prompts per category. Each prompt is provided in Albanian with an English reference translation and a detailed category label. This resource addresses a significant gap in safety evaluation infrastruc-ture for low-resource languages and provides an essential benchmark for developing safer, more inclusive LLMs. The dataset will be provided upon request to support safety evaluation, fine-tuning, red-teaming, and guardrail development for Albanian-speaking communities.

AlbanianLLMSafety: A Safety Evaluation Dataset for Large Language Models in Albanian

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理