RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

📄 arXiv: 2507.05980v1 📥 PDF

作者: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee

分类: cs.CL, cs.LG

发布日期: 2025-07-08


💡 一句话要点

RabakBench:构建面向低资源语言的、可扩展的多语种安全基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语种安全 低资源语言 安全基准 对抗样本 LLM安全

📋 核心要点

  1. 大型语言模型在低资源语言上的安全性能差,缺乏训练数据和评估基准是主要挑战。
  2. RabakBench通过对抗样本生成、半自动多标签标注和高保真翻译,构建多语种安全基准。
  3. 实验表明,现有安全分类器在RabakBench上性能显著下降,验证了其有效性。

📝 摘要(中文)

本文介绍了RabakBench,这是一个新的多语种安全基准,专门针对新加坡独特的语言环境进行了本地化,涵盖了Singlish、中文、马来语和泰米尔语。RabakBench通过一个可扩展的三阶段流程构建:(i)生成 - 通过使用LLM驱动的红队方法增强真实的Singlish网络内容来生成对抗性示例;(ii)标注 - 使用与人类判断对齐的、多数投票的LLM标注器进行半自动多标签安全标注;(iii)翻译 - 高保真翻译,保留跨语言的语言细微差别和毒性。最终数据集包含超过5000个跨四种语言和六个细粒度安全类别的安全标记示例,并具有严重程度级别。对11个流行的开源和闭源安全分类器的评估表明,性能显著下降。RabakBench不仅能够在东南亚多语种环境中进行稳健的安全评估,而且还提供了一个可重现的框架,用于在低资源环境中构建本地化的安全数据集。基准数据集(包括人工验证的翻译)和评估代码都是公开可用的。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)及其安全分类器在低资源语言上的表现往往不佳。这主要是由于缺乏足够的训练数据和专门针对这些语言的评估基准。现有的安全基准数据集通常集中在高资源语言上,无法有效评估和提升LLMs在低资源语言环境下的安全性。因此,如何构建高质量、本地化的低资源语言安全基准是一个亟待解决的问题。

核心思路:RabakBench的核心思路是通过一个可扩展的三阶段流程,半自动地构建多语种安全基准。该流程包括:(1) 利用LLM生成对抗性样本,模拟真实世界中的恶意攻击;(2) 使用LLM进行半自动多标签安全标注,并通过多数投票机制提高标注质量;(3) 进行高保真翻译,确保不同语言版本之间语义一致,同时保留语言的细微差别和毒性。这种方法旨在降低人工标注成本,并提高数据集的覆盖范围和质量。

技术框架:RabakBench的构建流程主要包含以下三个阶段: 1. 生成阶段 (Generate):利用LLM(如GPT-3)对真实的Singlish网络内容进行增强,生成对抗性示例。通过红队策略,引导LLM生成包含潜在安全风险的文本。 2. 标注阶段 (Label):使用多个LLM标注器对生成的文本进行安全标注,采用多数投票机制确定最终标签。同时,人工审核员会对LLM标注结果进行验证和修正,确保标注的准确性。 3. 翻译阶段 (Translate):将Singlish文本翻译成中文、马来语和泰米尔语。为了保证翻译质量,采用了专业翻译人员进行翻译,并进行人工审核,以确保翻译的准确性和流畅性,同时保留原文的毒性。

关键创新:RabakBench的关键创新在于其可扩展的半自动构建流程,该流程能够有效地降低人工标注成本,并提高数据集的覆盖范围和质量。此外,RabakBench还特别关注了低资源语言的本地化,确保数据集能够反映当地的语言文化和社会背景。这种本地化的方法有助于更好地评估和提升LLMs在特定语言环境下的安全性。

关键设计:在生成阶段,使用了特定的prompt工程技术,引导LLM生成具有多样性和挑战性的对抗性样本。在标注阶段,采用了多标签分类体系,涵盖了六个细粒度的安全类别,并对每个类别定义了不同的严重程度级别。在翻译阶段,采用了专业翻译人员进行翻译,并进行人工审核,以确保翻译的准确性和流畅性,同时保留原文的毒性。

🖼️ 关键图片

img_0

📊 实验亮点

RabakBench数据集包含超过5000个样本,覆盖四种语言和六个安全类别。实验结果表明,现有的开源和闭源安全分类器在RabakBench上的性能显著下降,这表明RabakBench能够有效地评估LLMs在低资源语言环境下的安全性。例如,某些分类器的准确率下降了超过20%。

🎯 应用场景

RabakBench可应用于评估和提升大型语言模型在东南亚多语种环境下的安全性。该基准数据集能够帮助研究人员和开发者更好地了解LLMs在低资源语言上的安全漏洞,并开发更有效的安全防御机制。此外,RabakBench的构建方法也可以推广到其他低资源语言,为构建本地化的安全基准提供参考。

📄 摘要(原文)

Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.