FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models

📄 arXiv: 2504.14690v1 📥 PDF

作者: Mehrnoush Shamsfard, Zahra Saaberi, Mostafa Karimi manesh, Seyed Mohammad Hossein Hashemi, Zahra Vatankhah, Motahareh Ramezani, Niki Pourazin, Tara Zare, Maryam Azimi, Sarina Chitsaz, Sama Khoraminejad, Morteza Mahdavi Mortazavi, Mohammad Mahdi Chizari, Sahar Maleki, Seyed Soroush Majd, Mostafa Masumi, Sayed Ali Musavi Khoeini, Amir Mohseni, Sogol Alipour

分类: cs.CL, cs.AI

发布日期: 2025-04-20

备注: 24 pages, 3 figures, 3 tables


💡 一句话要点

FarsEval-PKBETS:一个用于评估波斯语大型语言模型的新型多样化基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 波斯语 大型语言模型 评估基准 自然语言处理 文化适应性

📋 核心要点

  1. 现有大型语言模型评估主要集中在英语等资源丰富的语言上,对波斯语等语言的关注明显不足。
  2. FarsEval-PKBETS基准旨在提供一个多样化的波斯语评估数据集,包含多种题型和领域,并考虑了文化和语言特性。
  3. 实验结果表明,现有模型在FarsEval-PKBETS上的表现不佳,平均准确率低于50%,表明仍有很大的提升空间。

📝 摘要(中文)

本文介绍了FarsEval-PKBETS基准,它是FarsEval项目的一个子集,旨在评估波斯语大型语言模型。该基准包含4000个不同格式的问题和答案,包括选择题、简答题和描述性回答。它涵盖了广泛的领域和任务,包括医学、法律、宗教、波斯语、百科知识、人类偏好、社会知识、伦理和偏见、文本生成以及尊重他人权利。该基准融入了与波斯语和伊朗相关的语言、文化和地域因素。为了确保问题对当前的大型语言模型具有挑战性,我们使用该基准评估了三个模型——Llama3-70B、PersianMind和Dorna。它们的平均准确率低于50%,这意味着它们对不到一半的问题提供了完全正确的答案。这些结果表明,当前的语言模型还远未能够解决这个基准。

🔬 方法详解

问题定义:论文旨在解决波斯语大型语言模型缺乏全面、多样化评估基准的问题。现有方法主要集中在英语等资源丰富的语言上,忽略了波斯语的语言特性、文化背景和特定领域知识,导致现有模型在波斯语上的性能评估不准确。

核心思路:论文的核心思路是构建一个包含多种题型(选择题、简答题、描述性回答)和领域(医学、法律、宗教等)的波斯语评估基准,并融入语言、文化和地域因素,从而更全面、准确地评估波斯语大型语言模型的性能。

技术框架:FarsEval-PKBETS基准包含4000个问题和答案,涵盖多个领域和任务。问题的设计考虑了波斯语的语言特点,例如语法、词汇和表达方式。同时,基准还包含了与伊朗文化和社会相关的知识,例如宗教、法律和伦理规范。基准中的问题类型包括选择题、简答题和描述性回答,以评估模型在不同任务上的能力。

关键创新:该基准的关键创新在于其多样性和全面性,不仅涵盖了多个领域和任务,还融入了波斯语的语言特性、文化背景和地域因素。这使得该基准能够更准确地评估波斯语大型语言模型的性能,并为未来的研究提供有价值的资源。

关键设计:基准中的问题设计经过精心策划,以确保其难度和区分度。问题涵盖了不同难度级别,从基础知识到复杂推理。同时,问题还设计为能够区分不同模型的性能,从而更好地评估模型的优劣。此外,基准还提供了详细的评估指标,例如准确率、召回率和F1值,以便更全面地评估模型的性能。

📊 实验亮点

使用FarsEval-PKBETS基准评估了Llama3-70B、PersianMind和Dorna三个模型,结果显示它们的平均准确率均低于50%。这表明当前的大型语言模型在波斯语上的性能仍有很大的提升空间,FarsEval-PKBETS基准能够有效区分不同模型的性能,并为未来的研究提供有价值的参考。

🎯 应用场景

该研究成果可应用于波斯语大型语言模型的开发和评估,推动波斯语自然语言处理技术的发展。该基准可用于评估模型的语言理解、知识推理、文本生成和伦理道德等方面的能力,从而帮助研究人员更好地了解模型的优缺点,并进行针对性的改进。此外,该基准还可以用于开发更智能、更可靠的波斯语人工智能系统,例如智能客服、机器翻译和信息检索。

📄 摘要(原文)

Research on evaluating and analyzing large language models (LLMs) has been extensive for resource-rich languages such as English, yet their performance in languages such as Persian has received considerably less attention. This paper introduces FarsEval-PKBETS benchmark, a subset of FarsEval project for evaluating large language models in Persian. This benchmark consists of 4000 questions and answers in various formats, including multiple choice, short answer and descriptive responses. It covers a wide range of domains and tasks,including medicine, law, religion, Persian language, encyclopedic knowledge, human preferences, social knowledge, ethics and bias, text generation, and respecting others' rights. This bechmark incorporates linguistics, cultural, and local considerations relevant to the Persian language and Iran. To ensure the questions are challenging for current LLMs, three models -- Llama3-70B, PersianMind, and Dorna -- were evaluated using this benchmark. Their average accuracy was below 50%, meaning they provided fully correct answers to fewer than half of the questions. These results indicate that current language models are still far from being able to solve this benchmark