EPT Benchmark: Evaluation of Persian Trustworthiness in Large Language Models
作者: Mohammad Reza Mirbagheri, Mohammad Mahdi Mirkamali, Zahra Motoshaker Arani, Ali Javeri, Amir Mahdi Sadeghzadeh, Rasool Jalili
分类: cs.CL, cs.CR
发布日期: 2025-09-08
🔗 代码/项目: GITHUB
💡 一句话要点
提出EPT基准,评估大型语言模型在波斯语环境下的可信度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可信度评估 波斯语 基准测试 文化适应性 伦理对齐 安全性 公平性
📋 核心要点
- 现有大型语言模型在波斯语环境下的可信度评估缺乏标准化的基准和数据集,难以全面衡量其在文化和伦理方面的表现。
- 论文提出EPT基准,通过构建包含真实性、安全性、公平性等六个维度的评估体系,全面评估LLM在波斯语环境下的可信度。
- 实验结果表明,现有模型在安全性方面存在显著不足,同时揭示了模型与波斯文化伦理价值观的差距,为未来研究提供了方向。
📝 摘要(中文)
大型语言模型(LLMs)在广泛的语言任务中表现出卓越的性能,已成为现代人工智能技术的基石。然而,确保其可信度仍然是一个关键挑战,因为可靠性对于准确的性能以及维护道德、文化和社会价值观至关重要。训练数据的仔细对齐和具有文化基础的评估标准对于开发负责任的AI系统至关重要。本研究引入了EPT(波斯语可信度评估)指标,这是一个专门设计的、具有文化背景的基准,用于评估LLM在六个关键方面的可信度:真实性、安全性、公平性、鲁棒性、隐私和伦理一致性。我们整理了一个带标签的数据集,并使用基于LLM的自动评估和人工评估来评估包括ChatGPT、Claude、DeepSeek、Gemini、Grok、LLaMA、Mistral和Qwen在内的多个领先模型的性能。结果表明,安全维度存在重大缺陷,突显了迫切需要关注模型行为的这一关键方面。此外,我们的研究结果为这些模型与波斯伦理文化价值观的对齐提供了有价值的见解,并强调了推进可信和文化负责任的AI的关键差距和机遇。该数据集已公开发布。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在波斯语环境下的可信度评估问题。现有方法缺乏针对波斯语文化背景的细粒度评估标准,难以全面衡量模型在真实性、安全性、公平性、隐私、鲁棒性和伦理一致性等方面的表现。这限制了LLM在波斯语环境下的可靠应用,并可能导致伦理和社会问题。
核心思路:论文的核心思路是构建一个专门针对波斯语文化背景的可信度评估基准EPT。该基准包含六个关键维度,并提供相应的评估数据集和评估方法,从而能够全面、客观地评估LLM在波斯语环境下的可信度。通过对现有模型的评估,可以识别其在各个维度上的不足,并为未来的模型改进提供指导。
技术框架:EPT基准的整体框架包括以下几个主要组成部分:1) 定义可信度评估的六个关键维度:真实性、安全性、公平性、鲁棒性、隐私和伦理一致性;2) 构建一个带标签的波斯语数据集,用于评估LLM在各个维度上的表现;3) 设计基于LLM的自动评估方法和人工评估方法,用于对模型进行评估;4) 对多个领先的LLM进行评估,并分析其在各个维度上的表现。
关键创新:该论文的关键创新在于:1) 提出了一个专门针对波斯语文化背景的可信度评估基准EPT,填补了该领域的空白;2) 构建了一个包含六个关键维度的全面评估体系,能够更细粒度地评估LLM的可信度;3) 结合了自动评估和人工评估方法,提高了评估的准确性和可靠性。
关键设计:EPT基准的关键设计包括:1) 数据集的构建:数据集包含针对六个维度的标注数据,涵盖了各种场景和主题,以保证评估的全面性;2) 评估指标的设计:针对每个维度,设计了相应的评估指标,用于衡量模型的表现;3) 评估方法的选择:采用了基于LLM的自动评估方法和人工评估方法,以提高评估的准确性和可靠性。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。
📊 实验亮点
实验结果表明,现有的大型语言模型在波斯语环境下的安全性方面存在显著不足。例如,某些模型容易生成不安全或有害的内容。此外,实验还揭示了模型与波斯文化伦理价值观的差距,表明需要在模型训练中更加注重文化敏感性。该研究为未来改进LLM在波斯语环境下的可信度提供了重要的参考。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型在波斯语环境下的可靠性和安全性,促进负责任的人工智能发展。其潜在应用领域包括:智能客服、内容审核、教育辅助、医疗诊断等。通过使用EPT基准,开发者可以更好地了解模型在波斯语环境下的表现,并针对性地进行改进,从而提高模型的实用性和社会价值。
📄 摘要(原文)
Large Language Models (LLMs), trained on extensive datasets using advanced deep learning architectures, have demonstrated remarkable performance across a wide range of language tasks, becoming a cornerstone of modern AI technologies. However, ensuring their trustworthiness remains a critical challenge, as reliability is essential not only for accurate performance but also for upholding ethical, cultural, and social values. Careful alignment of training data and culturally grounded evaluation criteria are vital for developing responsible AI systems. In this study, we introduce the EPT (Evaluation of Persian Trustworthiness) metric, a culturally informed benchmark specifically designed to assess the trustworthiness of LLMs across six key aspects: truthfulness, safety, fairness, robustness, privacy, and ethical alignment. We curated a labeled dataset and evaluated the performance of several leading models - including ChatGPT, Claude, DeepSeek, Gemini, Grok, LLaMA, Mistral, and Qwen - using both automated LLM-based and human assessments. Our results reveal significant deficiencies in the safety dimension, underscoring the urgent need for focused attention on this critical aspect of model behavior. Furthermore, our findings offer valuable insights into the alignment of these models with Persian ethical-cultural values and highlight critical gaps and opportunities for advancing trustworthy and culturally responsible AI. The dataset is publicly available at: https://github.com/Rezamirbagheri110/EPT-Benchmark.