EPT Benchmark: Evaluation of Persian Trustworthiness in Large Language Models
作者: Mohammad Reza Mirbagheri, Mohammad Mahdi Mirkamali, Zahra Motoshaker Arani, Ali Javeri, Amir Mahdi Sadeghzadeh, Rasool Jalili
分类: cs.CL, cs.CR
发布日期: 2025-09-08
🔗 代码/项目: GITHUB
💡 一句话要点
提出EPT基准,评估大型语言模型在波斯语环境下的可信度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可信度评估 波斯语 文化价值观 伦理一致性
📋 核心要点
- 现有大型语言模型在波斯语环境下的可信度评估缺乏,尤其是在文化价值观对齐方面存在挑战。
- 论文提出EPT基准,从真实性、安全性、公平性等六个维度评估LLM在波斯语环境下的可信度。
- 实验结果揭示了现有模型在安全维度上的不足,并指出了与波斯文化伦理价值观的差距。
📝 摘要(中文)
大型语言模型(LLMs)在广泛的语言任务中表现出卓越的性能,已成为现代人工智能技术的基石。然而,确保其可信度仍然是一个关键挑战,因为可靠性对于准确的性能以及维护道德、文化和社会价值观至关重要。训练数据的仔细对齐和具有文化基础的评估标准对于开发负责任的AI系统至关重要。本研究提出了EPT(波斯语可信度评估)指标,这是一个专门设计的、具有文化意识的基准,用于评估LLM在六个关键方面的可信度:真实性、安全性、公平性、鲁棒性、隐私和伦理一致性。我们整理了一个带标签的数据集,并使用基于LLM的自动评估和人工评估来评估包括ChatGPT、Claude、DeepSeek、Gemini、Grok、LLaMA、Mistral和Qwen在内的多个领先模型的性能。结果表明,安全维度存在重大缺陷,突显了迫切需要关注模型行为的这一关键方面。此外,我们的研究结果为这些模型与波斯语伦理文化价值观的对齐提供了有价值的见解,并强调了推进可信和对文化负责的AI的关键差距和机会。数据集已公开。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在波斯语环境下可信度评估的问题。现有方法缺乏针对波斯语文化背景的细致评估,无法全面衡量模型在真实性、安全性、公平性等方面的表现。这可能导致模型在实际应用中产生不符合文化价值观或存在安全隐患的输出。
核心思路:论文的核心思路是构建一个专门针对波斯语环境的、具有文化意识的可信度评估基准EPT。该基准从六个关键维度(真实性、安全性、公平性、鲁棒性、隐私和伦理一致性)对LLM进行评估,旨在全面衡量模型在波斯语环境下的可信度,并发现潜在的问题和改进方向。
技术框架:EPT基准的评估流程主要包括以下几个阶段:1) 数据集构建:收集并标注包含六个可信度维度的数据集,确保数据具有文化相关性。2) 模型评估:使用自动化的LLM评估和人工评估两种方式,对目标LLM在数据集上进行测试。3) 结果分析:分析评估结果,识别模型在各个维度上的表现,并发现潜在的问题和差距。
关键创新:该论文的关键创新在于提出了一个专门针对波斯语环境的可信度评估基准EPT。与通用的可信度评估方法相比,EPT更加注重文化相关性和伦理一致性,能够更准确地评估LLM在波斯语环境下的表现。此外,该论文还构建了一个带标签的波斯语数据集,为后续研究提供了数据基础。
关键设计:EPT基准的关键设计包括:1) 六个可信度维度的选择:真实性、安全性、公平性、鲁棒性、隐私和伦理一致性。2) 数据集的构建:确保数据集包含各种场景和文化背景,并进行高质量的标注。3) 评估方法的选择:结合自动化的LLM评估和人工评估,以获得更全面和准确的评估结果。具体的参数设置、损失函数、网络结构等技术细节取决于所评估的LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有大型语言模型在波斯语环境下的安全性方面存在显著缺陷,尤其是在生成有害或不当内容方面。此外,模型在伦理一致性方面也存在差距,未能完全符合波斯文化价值观。该研究强调了针对特定文化背景进行可信度评估的重要性,并为改进模型在波斯语环境下的表现提供了指导。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型在波斯语环境下的可信度,确保AI系统符合当地文化价值观和伦理标准。这对于开发负责任的AI应用,例如智能客服、内容生成和教育工具等,具有重要意义。该基准还可以促进跨语言和跨文化AI研究,推动全球AI伦理的发展。
📄 摘要(原文)
Large Language Models (LLMs), trained on extensive datasets using advanced deep learning architectures, have demonstrated remarkable performance across a wide range of language tasks, becoming a cornerstone of modern AI technologies. However, ensuring their trustworthiness remains a critical challenge, as reliability is essential not only for accurate performance but also for upholding ethical, cultural, and social values. Careful alignment of training data and culturally grounded evaluation criteria are vital for developing responsible AI systems. In this study, we introduce the EPT (Evaluation of Persian Trustworthiness) metric, a culturally informed benchmark specifically designed to assess the trustworthiness of LLMs across six key aspects: truthfulness, safety, fairness, robustness, privacy, and ethical alignment. We curated a labeled dataset and evaluated the performance of several leading models - including ChatGPT, Claude, DeepSeek, Gemini, Grok, LLaMA, Mistral, and Qwen - using both automated LLM-based and human assessments. Our results reveal significant deficiencies in the safety dimension, underscoring the urgent need for focused attention on this critical aspect of model behavior. Furthermore, our findings offer valuable insights into the alignment of these models with Persian ethical-cultural values and highlight critical gaps and opportunities for advancing trustworthy and culturally responsible AI. The dataset is publicly available at: https://github.com/Rezamirbagheri110/EPT-Benchmark.