IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia
作者: Priyaranjan Pattnayak, Sanchari Chowdhuri
分类: cs.CL, cs.AI
发布日期: 2026-03-18
💡 一句话要点
IndicSafe:评估南亚多语种LLM安全性的基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语种LLM 安全性评估 印度语言 低资源语言 文化背景 安全性漂移 IndicSafe
📋 核心要点
- 现有LLM在低资源印度语言中的安全性评估不足,缺乏针对文化背景的系统性测试。
- 论文提出IndicSafe基准,包含文化相关的多语言提示,用于评估LLM在印度语言环境下的安全性。
- 实验表明,LLM在不同印度语言中的安全性存在显著差异,安全性对齐无法有效迁移。
📝 摘要(中文)
随着大型语言模型(LLMs)被部署在多语种环境中,它们在文化多样、低资源语言中的安全性行为仍然知之甚少。我们首次系统地评估了LLM在12种印度语言中的安全性,这些语言的使用者超过12亿,但在LLM训练数据中代表性不足。我们使用包含6000个文化相关的提示的数据集,涵盖种姓、宗教、性别、健康和政治等领域,评估了10个领先的LLM在提示的翻译变体上的表现。我们的分析揭示了显著的安全性漂移:跨语言一致性仅为12.8%, exttt{SAFE}率差异超过17%。一些模型过度拒绝低资源脚本中的良性提示,过度标记政治敏感话题,而另一些模型则未能标记不安全的生成内容。我们使用提示级别的熵、类别偏差分数和多语言一致性指标来量化这些失败。我们的研究结果突出了多语种LLM中存在的关键安全性泛化差距,并表明安全性对齐无法在不同语言之间均匀转移。我们发布了 extsc{IndicSafe},这是第一个支持印度地区文化背景下的安全性评估的基准,并倡导基于区域危害的语言感知对齐策略。
🔬 方法详解
问题定义:论文旨在解决多语言LLM在南亚地区,特别是印度语言环境下的安全性评估问题。现有方法主要集中在高资源语言上,忽略了低资源语言和文化背景的差异,导致LLM在这些地区的安全性行为未知,可能产生有害或不适当的内容。
核心思路:核心思路是构建一个包含文化背景知识的多语言基准数据集,用于系统地评估LLM在不同印度语言中的安全性。通过分析LLM在不同语言提示下的输出,揭示其安全性的泛化能力和潜在的偏差。
技术框架:整体框架包括以下几个主要步骤:1)构建包含种姓、宗教、性别、健康和政治等主题的英文提示;2)将英文提示翻译成12种印度语言;3)使用这些多语言提示评估10个领先的LLM;4)分析LLM的输出,计算安全性指标,如跨语言一致性、SAFE率差异、提示级别熵和类别偏差分数。
关键创新:关键创新在于构建了首个针对印度语言环境的安全性评估基准IndicSafe,该基准包含文化相关的提示,能够更准确地评估LLM在这些地区的安全性。此外,论文还提出了多种指标来量化LLM的安全性漂移和偏差。
关键设计:数据集包含6000个提示,涵盖了种姓、宗教、性别、健康和政治等多个敏感领域。评估指标包括:1)跨语言一致性,衡量LLM在不同语言提示下的输出一致性;2)SAFE率差异,衡量LLM在不同语言下的拒绝率差异;3)提示级别熵,衡量LLM对不同提示的反应多样性;4)类别偏差分数,衡量LLM在不同类别上的偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在不同印度语言中的安全性存在显著差异,跨语言一致性仅为12.8%,SAFE率差异超过17%。一些模型过度拒绝低资源脚本中的良性提示,而另一些模型则未能标记不安全的生成内容。这些结果突出了多语种LLM中存在的安全性泛化差距。
🎯 应用场景
该研究成果可应用于多语言LLM的安全性评估和改进,尤其是在南亚地区。IndicSafe基准可以帮助开发者识别LLM在不同语言和文化背景下的安全漏洞,并开发更有效的安全性对齐策略。这对于确保LLM在这些地区的负责任部署至关重要,避免产生有害或不适当的内容。
📄 摘要(原文)
As large language models (LLMs) are deployed in multilingual settings, their safety behavior in culturally diverse, low-resource languages remains poorly understood. We present the first systematic evaluation of LLM safety across 12 Indic languages, spoken by over 1.2 billion people but underrepresented in LLM training data. Using a dataset of 6,000 culturally grounded prompts spanning caste, religion, gender, health, and politics, we assess 10 leading LLMs on translated variants of the prompt. Our analysis reveals significant safety drift: cross-language agreement is just 12.8\%, and \texttt{SAFE} rate variance exceeds 17\% across languages. Some models over-refuse benign prompts in low-resource scripts, overflag politically sensitive topics, while others fail to flag unsafe generations. We quantify these failures using prompt-level entropy, category bias scores, and multilingual consistency indices. Our findings highlight critical safety generalization gaps in multilingual LLMs and show that safety alignment does not transfer evenly across languages. We release \textsc{IndicSafe}, the first benchmark to enable culturally informed safety evaluation for Indic deployments, and advocate for language-aware alignment strategies grounded in regional harms.