ELAB: Extensive LLM Alignment Benchmark in Persian Language

📄 arXiv: 2504.12553v1 📥 PDF

作者: Zahra Pourbahman, Fatemeh Rajabi, Mohammadhossein Sadeghi, Omid Ghahroodi, Somaye Bakhshaei, Arash Amini, Reza Kazemi, Mahdieh Soleymani Baghshah

分类: cs.CL

发布日期: 2025-04-17

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

ELAB:波斯语大型语言模型对齐的综合基准评测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 波斯语LLM 对齐评估 安全性 公平性 社会规范 基准测试 文化适应

📋 核心要点

  1. 现有LLM评估框架在波斯语的语言和文化背景下存在不足,难以准确评估模型在安全性、公平性和社会规范方面的表现。
  2. 该研究通过翻译现有数据集、合成生成新数据以及自然收集数据,构建了全面的波斯语LLM对齐评估基准ELAB。
  3. ELAB对多个波斯语LLM进行了系统评估,并在安全性、公平性和社会规范方面进行了基准测试,结果已公开在排行榜上。

📝 摘要(中文)

本文提出了一个全面的评估框架,用于评估波斯语大型语言模型(LLM)在关键伦理维度上的对齐情况,包括安全性、公平性和社会规范。该框架通过将现有LLM评估框架适配到波斯语语言和文化背景,弥补了现有框架的不足。该基准创建了三种类型的波斯语数据集:(i)翻译数据,(ii)合成生成的新数据,以及(iii)自然收集的新数据。我们将Anthropic Red Teaming数据、AdvBench、HarmBench和DecodingTrust翻译成波斯语。此外,我们创建了ProhibiBench-fa、SafeBench-fa、FairBench-fa和SocialBench-fa作为新数据集,以解决本土文化中的有害和违禁内容。此外,我们收集了广泛的数据集GuardBench-fa,以考虑波斯文化规范。通过结合这些数据集,我们的工作建立了一个统一的框架,用于评估波斯语LLM,为文化背景下的对齐评估提供了一种新方法。我们对波斯语LLM在三个对齐方面进行了系统评估:安全性(避免有害内容)、公平性(减轻偏见)和社会规范(遵守文化接受的行为)。我们提供了一个公开的排行榜,用于评估波斯语LLM在安全性、公平性和社会规范方面的表现。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估基准主要集中在英语等语言上,缺乏针对波斯语的全面评估体系。这导致无法有效评估波斯语LLM在安全性(避免有害内容)、公平性(减轻偏见)和社会规范(遵守文化接受的行为)等关键伦理维度上的表现。现有方法难以适应波斯语的语言特性和文化背景,评估结果可能存在偏差。

核心思路:该研究的核心思路是构建一个全面的波斯语LLM对齐评估基准ELAB,该基准包含翻译的英文数据集、合成生成的波斯语数据集以及自然收集的波斯语数据集。通过结合这三种类型的数据,ELAB能够更全面、更准确地评估波斯语LLM在安全性、公平性和社会规范方面的表现。这种多源数据融合的方法能够有效弥补单一数据来源的局限性。

技术框架:ELAB的整体框架包括以下几个主要模块:1) 数据收集与构建:包括翻译Anthropic Red Teaming数据、AdvBench、HarmBench和DecodingTrust等英文数据集,合成生成ProhibiBench-fa、SafeBench-fa、FairBench-fa和SocialBench-fa等数据集,以及自然收集GuardBench-fa数据集。2) 评估指标设计:针对安全性、公平性和社会规范三个维度,设计相应的评估指标。3) 模型评估:使用ELAB基准对多个波斯语LLM进行评估,并记录评估结果。4) 排行榜构建:将评估结果整理成排行榜,公开展示各个模型的性能。

关键创新:该研究的关键创新在于构建了首个针对波斯语LLM的全面对齐评估基准ELAB。ELAB不仅包含了翻译的数据集,还包含了专门为波斯语语言和文化背景设计的合成和自然收集的数据集。这种多源数据融合的方法能够更准确地评估波斯语LLM在安全性、公平性和社会规范方面的表现。与现有方法相比,ELAB更具针对性和实用性。

关键设计:在数据集构建方面,ProhibiBench-fa、SafeBench-fa、FairBench-fa和SocialBench-fa等数据集的设计充分考虑了波斯语的语言特性和文化背景,例如,在FairBench-fa中,会考察模型是否存在对特定宗教或民族的偏见。GuardBench-fa数据集则侧重于评估模型是否符合波斯文化规范,例如,在公开场合的言行举止。具体的参数设置和损失函数等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究构建了首个针对波斯语LLM的全面对齐评估基准ELAB,并在安全性、公平性和社会规范三个维度上对多个波斯语LLM进行了系统评估。评估结果已公开在排行榜上,为后续研究提供了重要的参考依据。具体的性能数据和提升幅度在论文中未详细描述,属于未知信息。

🎯 应用场景

该研究成果可应用于波斯语LLM的开发和评估,帮助开发者构建更安全、更公平、更符合社会规范的波斯语LLM。此外,该基准也可用于评估现有波斯语LLM的性能,为用户选择合适的模型提供参考。未来,该研究可推广到其他低资源语言,促进全球范围内LLM的健康发展。

📄 摘要(原文)

This paper presents a comprehensive evaluation framework for aligning Persian Large Language Models (LLMs) with critical ethical dimensions, including safety, fairness, and social norms. It addresses the gaps in existing LLM evaluation frameworks by adapting them to Persian linguistic and cultural contexts. This benchmark creates three types of Persian-language benchmarks: (i) translated data, (ii) new data generated synthetically, and (iii) new naturally collected data. We translate Anthropic Red Teaming data, AdvBench, HarmBench, and DecodingTrust into Persian. Furthermore, we create ProhibiBench-fa, SafeBench-fa, FairBench-fa, and SocialBench-fa as new datasets to address harmful and prohibited content in indigenous culture. Moreover, we collect extensive dataset as GuardBench-fa to consider Persian cultural norms. By combining these datasets, our work establishes a unified framework for evaluating Persian LLMs, offering a new approach to culturally grounded alignment evaluation. A systematic evaluation of Persian LLMs is performed across the three alignment aspects: safety (avoiding harmful content), fairness (mitigating biases), and social norms (adhering to culturally accepted behaviors). We present a publicly available leaderboard that benchmarks Persian LLMs with respect to safety, fairness, and social norms at: https://huggingface.co/spaces/MCILAB/LLM_Alignment_Evaluation.