RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

作者: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee

分类: cs.CL, cs.LG

发布日期: 2025-07-08

💡 一句话要点

RabakBench：构建面向低资源语言的、可扩展的多语种安全基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语种安全 低资源语言 安全基准 对抗样本 LLM安全

📋 核心要点

大型语言模型在低资源语言上的安全性能差，缺乏训练数据和评估基准是主要挑战。
RabakBench通过对抗样本生成、半自动多标签标注和高保真翻译，构建多语种安全基准。
实验表明，现有安全分类器在RabakBench上性能显著下降，验证了其有效性。

📝 摘要（中文）

本文介绍了RabakBench，这是一个新的多语种安全基准，专门针对新加坡独特的语言环境进行了本地化，涵盖了Singlish、中文、马来语和泰米尔语。RabakBench通过一个可扩展的三阶段流程构建：（i）生成 - 通过使用LLM驱动的红队方法增强真实的Singlish网络内容来生成对抗性示例；（ii）标注 - 使用与人类判断对齐的、多数投票的LLM标注器进行半自动多标签安全标注；（iii）翻译 - 高保真翻译，保留跨语言的语言细微差别和毒性。最终数据集包含超过5000个跨四种语言和六个细粒度安全类别的安全标记示例，并具有严重程度级别。对11个流行的开源和闭源安全分类器的评估表明，性能显著下降。RabakBench不仅能够在东南亚多语种环境中进行稳健的安全评估，而且还提供了一个可重现的框架，用于在低资源环境中构建本地化的安全数据集。基准数据集（包括人工验证的翻译）和评估代码都是公开可用的。

🔬 方法详解

问题定义：现有的大型语言模型（LLMs）及其安全分类器在低资源语言上的表现往往不佳。这主要是由于缺乏足够的训练数据和专门针对这些语言的评估基准。现有的安全基准数据集通常集中在高资源语言上，无法有效评估和提升LLMs在低资源语言环境下的安全性。因此，如何构建高质量、本地化的低资源语言安全基准是一个亟待解决的问题。

核心思路：RabakBench的核心思路是通过一个可扩展的三阶段流程，半自动地构建多语种安全基准。该流程包括：(1) 利用LLM生成对抗性样本，模拟真实世界中的恶意攻击；(2) 使用LLM进行半自动多标签安全标注，并通过多数投票机制提高标注质量；(3) 进行高保真翻译，确保不同语言版本之间语义一致，同时保留语言的细微差别和毒性。这种方法旨在降低人工标注成本，并提高数据集的覆盖范围和质量。

技术框架：RabakBench的构建流程主要包含以下三个阶段： 1. 生成阶段 (Generate)：利用LLM（如GPT-3）对真实的Singlish网络内容进行增强，生成对抗性示例。通过红队策略，引导LLM生成包含潜在安全风险的文本。 2. 标注阶段 (Label)：使用多个LLM标注器对生成的文本进行安全标注，采用多数投票机制确定最终标签。同时，人工审核员会对LLM标注结果进行验证和修正，确保标注的准确性。 3. 翻译阶段 (Translate)：将Singlish文本翻译成中文、马来语和泰米尔语。为了保证翻译质量，采用了专业翻译人员进行翻译，并进行人工审核，以确保翻译的准确性和流畅性，同时保留原文的毒性。

关键创新：RabakBench的关键创新在于其可扩展的半自动构建流程，该流程能够有效地降低人工标注成本，并提高数据集的覆盖范围和质量。此外，RabakBench还特别关注了低资源语言的本地化，确保数据集能够反映当地的语言文化和社会背景。这种本地化的方法有助于更好地评估和提升LLMs在特定语言环境下的安全性。

关键设计：在生成阶段，使用了特定的prompt工程技术，引导LLM生成具有多样性和挑战性的对抗性样本。在标注阶段，采用了多标签分类体系，涵盖了六个细粒度的安全类别，并对每个类别定义了不同的严重程度级别。在翻译阶段，采用了专业翻译人员进行翻译，并进行人工审核，以确保翻译的准确性和流畅性，同时保留原文的毒性。

🖼️ 关键图片

📊 实验亮点

RabakBench数据集包含超过5000个样本，覆盖四种语言和六个安全类别。实验结果表明，现有的开源和闭源安全分类器在RabakBench上的性能显著下降，这表明RabakBench能够有效地评估LLMs在低资源语言环境下的安全性。例如，某些分类器的准确率下降了超过20%。

🎯 应用场景

RabakBench可应用于评估和提升大型语言模型在东南亚多语种环境下的安全性。该基准数据集能够帮助研究人员和开发者更好地了解LLMs在低资源语言上的安全漏洞，并开发更有效的安全防御机制。此外，RabakBench的构建方法也可以推广到其他低资源语言，为构建本地化的安全基准提供参考。

📄 摘要（原文）

Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.

RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理