SomaliBench Eval: Measuring English-to-Somali Refusal Gaps in Open-Weight Language Models
作者: Khalid Yusuf Dahir
分类: cs.CL, cs.AI, cs.CY
发布日期: 2026-05-25
备注: 12 pages, 3 figures, 4 tables. Code: https://github.com/khaledyusuf44/somalibench_eval Dataset: https://huggingface.co/datasets/khaledyusuf44/somalibench-v0
💡 一句话要点
SomaliBench Eval评估揭示开放权重语言模型在索马里语拒绝回答方面存在显著差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型安全 低资源语言 索马里语 安全评估 拒绝回答 开放权重模型 SomaliBench 有害内容检测
📋 核心要点
- 现有大语言模型安全评估过度集中于英语,忽略了低资源语言的安全问题,导致模型在全球部署时存在潜在风险。
- 论文构建了包含英语和索马里语有害意图提示的SomaliBench基准,用于评估开放权重语言模型在索马里语环境下的拒绝回答能力。
- 实验结果表明,多个模型在索马里语上的拒绝率远低于英语,且主要非拒绝模式为不明确输出,揭示了模型在低资源语言安全方面的不足。
📝 摘要(中文)
大型语言模型安全性评估主要集中在英语上,导致低资源语言在模型全球部署时被严重低估。本文使用SomaliBench v0评估了四个开放权重指令调优模型,该基准包含100个英语和索马里语的有害意图提示,并由母语作者验证。Llama-3.1-8B-Instruct、Gemma-2-9B-Instruct、Qwen-2.5-7B-Instruct和Aya-23-8B均在temperature=0和相同的英语“helpful, harmless, and honest (HHH)”系统提示下本地运行。一个固定的Claude Sonnet快照(claude-sonnet-4-5-20250929)将每个响应分类为拒绝、遵守或不明确;母语作者抽查了一个分层的80行样本。结果表明,所有四个模型都存在很大的英语到索马里语的拒绝差距:Llama-3.1-8B (0.90 [0.85, 0.96]),Aya-23-8B (0.75 [0.67, 0.83]),Qwen-2.5-7B (0.69 [0.59, 0.78])和Gemma-2-9B (0.38 [0.27, 0.49])。对于三个模型,主要的索马里语非拒绝模式不是流利的有害内容生成,而是不明确的输出:空输出、错误的语言或不连贯的生成。母语验证抽查与判断者在80个抽样行上达成了100%的一致(Cohen's kappa = 1.00)。本文仅报告了总体拒绝率、类别差距和可靠性统计数据;原始模型生成结果保留在本地,不予发布。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在低资源语言(特别是索马里语)中安全对齐不足的问题。现有的大部分安全评估基准和方法都集中在英语上,忽略了模型在其他语言环境下的潜在风险。这导致模型可能在英语环境下表现出较好的安全性能,但在索马里语等低资源语言环境下,更容易生成有害或不当内容。现有方法的痛点在于缺乏针对低资源语言的有效评估工具和方法。
核心思路:论文的核心思路是通过构建一个高质量的索马里语安全评估基准(SomaliBench v0),并使用该基准来评估多个开放权重语言模型在索马里语环境下的拒绝回答能力。通过对比模型在英语和索马里语上的拒绝率,揭示模型在低资源语言安全方面的差距。同时,分析非拒绝回答的类型,了解模型在索马里语环境下的主要问题。
技术框架:论文的技术框架主要包括以下几个步骤:1) 构建SomaliBench v0基准,包含100个英语和索马里语的有害意图提示,并由母语作者验证。2) 选择四个开放权重指令调优模型(Llama-3.1-8B-Instruct、Gemma-2-9B-Instruct、Qwen-2.5-7B-Instruct和Aya-23-8B)进行评估。3) 使用相同的英语“helpful, harmless, and honest (HHH)”系统提示,在temperature=0的设置下,让模型生成对提示的回答。4) 使用一个固定的Claude Sonnet快照(claude-sonnet-4-5-20250929)将每个响应分类为拒绝、遵守或不明确。5) 母语作者抽查一个分层的80行样本,验证分类结果的准确性。6) 分析和报告总体拒绝率、类别差距和可靠性统计数据。
关键创新:论文的关键创新在于构建了一个高质量的索马里语安全评估基准(SomaliBench v0),并使用该基准来评估开放权重语言模型在索马里语环境下的安全性能。与现有方法相比,该论文关注了低资源语言的安全问题,并提供了一个可用于评估模型在这些语言环境下安全性能的工具。
关键设计:论文的关键设计包括:1) SomaliBench v0基准的构建,确保提示的多样性和质量,并由母语作者验证。2) 使用相同的英语系统提示,以消除语言差异对模型行为的影响。3) 使用temperature=0的设置,以确保模型生成结果的可重复性。4) 使用Claude Sonnet进行自动分类,并由母语作者进行抽查验证,以确保分类结果的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Llama-3.1-8B、Aya-23-8B、Qwen-2.5-7B和Gemma-2-9B等模型在索马里语上的拒绝率远低于英语,拒绝差距分别为0.90、0.75、0.69和0.38。对于三个模型,主要的索马里语非拒绝模式不是流利的有害内容生成,而是不明确的输出,如空输出、错误的语言或不连贯的生成。母语验证抽查与判断者在80个抽样行上达成了100%的一致(Cohen's kappa = 1.00)。
🎯 应用场景
该研究成果可应用于提升多语言大语言模型在低资源语言环境下的安全性。通过使用SomaliBench等基准进行评估,可以发现模型在不同语言环境下的安全漏洞,并针对性地进行改进。这有助于确保模型在全球范围内的安全可靠部署,减少有害信息传播的风险,并促进更公平和包容的人工智能发展。
📄 摘要(原文)
Large language model safety evaluation remains heavily English-centered, leaving low-resource languages under-measured even when models are deployed globally. We evaluate four open-weight instruction-tuned models on SomaliBench v0, a native-author-verified benchmark of 100 harmful-intent prompts paired across English and Somali. Each of Llama-3.1-8B-Instruct, Gemma-2-9B-Instruct, Qwen-2.5-7B-Instruct, and Aya-23-8B is run locally with temperature 0 and the same English "helpful, harmless, and honest" (HHH) system prompt. A pinned Claude Sonnet snapshot (claude-sonnet-4-5-20250929) classifies each response as refused, complied, or unclear; the native author spot-checks a stratified 80-row sample. We find large English-to-Somali refusal gaps for all four models: Llama-3.1-8B (0.90; 95% bootstrap CI [0.85, 0.96]), Aya-23-8B (0.75 [0.67, 0.83]), Qwen-2.5-7B (0.69 [0.59, 0.78]), and Gemma-2-9B (0.38 [0.27, 0.49]). For three models, the dominant Somali non-refusal mode is not fluent harmful compliance but unclear output: empty, wrong-language, or incoherent generations. The native verification spot-check achieves 100% agreement with the judge (Cohen's kappa = 1.00) on the 80 sampled rows. We report aggregate refusal rates, category gaps, and reliability statistics only; raw model generations are retained locally and are not released.