Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT

📄 arXiv: 2404.02403v1 📥 PDF

作者: Amirhossein Abaskohi, Sara Baruni, Mostafa Masoudi, Nesa Abbasi, Mohammad Hadi Babalou, Ali Edalat, Sepehr Kamahi, Samin Mahdizadeh Sani, Nikoo Naghavian, Danial Namazifard, Pouya Sadeghi, Yadollah Yaghoobzadeh

分类: cs.CL, cs.LG

发布日期: 2024-04-03

备注: 14 pages, 1 figure, 6 tables, Proceeding of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING)


💡 一句话要点

评估大型语言模型在波斯语中的应用潜力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 波斯语 基准测试 推理任务 教育技术 自然语言处理

📋 核心要点

  1. 现有大型语言模型在波斯语等低资源语言中的有效性尚未得到充分验证,尤其是在推理任务上表现不佳。
  2. 本文通过对GPT-3.5-turbo、GPT-4和OpenChat-3.5的综合评估,提出了新的波斯语基准测试,以填补现有研究的空白。
  3. 实验结果显示,尽管LLMs在推理和知识理解方面表现良好,但在特定任务上仍不及经过微调的小型模型,且翻译成英语后性能有所提升。

📝 摘要(中文)

本文探讨了大型语言模型(LLMs)在波斯语中的有效性。尽管ChatGPT等LLMs在英语中表现出色,但其在低资源语言中的效率仍然是一个未解之谜。我们首次对LLMs在多种波斯语任务中的表现进行了全面基准测试,主要关注GPT-3.5-turbo,同时也包括GPT-4和OpenChat-3.5。评估涵盖经典、推理和知识基础等多种任务。由于波斯语推理任务数据集有限,我们引入了两个新的基准:基于小学数学问题和7、10年级入学考试的问题。结果表明,尽管LLMs,尤其是GPT-4,在推理能力和广泛知识理解方面表现优异,但在特定任务上仍落后于经过微调的小型预训练模型。此外,当测试集翻译成英语后输入GPT-3.5时,性能有所提升。这些结果突显了提升LLM在波斯语中表现的巨大潜力,尤其考虑到波斯语独特的字母和书写风格。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在波斯语任务中的有效性问题,尤其是在推理任务上现有方法的不足。现有的波斯语数据集稀缺,导致LLMs在该语言的应用受到限制。

核心思路:通过引入新的波斯语基准测试,特别是针对小学数学问题和入学考试的问题,来评估LLMs的性能,提供更全面的比较。

技术框架:研究首先对GPT-3.5-turbo、GPT-4和OpenChat-3.5进行评估,涵盖经典、推理和知识基础任务。然后,将LLMs与现有的任务特定微调模型进行比较。

关键创新:引入了针对波斯语的全新基准测试,特别是针对推理任务的数学问题和入学考试,填补了该领域的研究空白。

关键设计:在实验中,使用了多种任务类型进行评估,并对测试集进行翻译,以提高LLMs的输入质量和性能。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,GPT-4在推理能力和知识理解方面表现优异,但在特定任务上仍落后于经过微调的小型模型。翻译测试集至英语后,GPT-3.5的性能有所提升,表明翻译策略在提升LLM表现方面的潜力。

🎯 应用场景

该研究的潜在应用领域包括教育、自然语言处理和人机交互等。通过提升LLMs在波斯语中的表现,可以为波斯语用户提供更好的智能助手、教育工具和信息检索系统,推动波斯语的数字化发展。

📄 摘要(原文)

This paper explores the efficacy of large language models (LLMs) for Persian. While ChatGPT and consequent LLMs have shown remarkable performance in English, their efficiency for more low-resource languages remains an open question. We present the first comprehensive benchmarking study of LLMs across diverse Persian language tasks. Our primary focus is on GPT-3.5-turbo, but we also include GPT-4 and OpenChat-3.5 to provide a more holistic evaluation. Our assessment encompasses a diverse set of tasks categorized into classic, reasoning, and knowledge-based domains. To enable a thorough comparison, we evaluate LLMs against existing task-specific fine-tuned models. Given the limited availability of Persian datasets for reasoning tasks, we introduce two new benchmarks: one based on elementary school math questions and another derived from the entrance exams for 7th and 10th grades. Our findings reveal that while LLMs, especially GPT-4, excel in tasks requiring reasoning abilities and a broad understanding of general knowledge, they often lag behind smaller pre-trained models fine-tuned specifically for particular tasks. Additionally, we observe improved performance when test sets are translated to English before inputting them into GPT-3.5. These results highlight the significant potential for enhancing LLM performance in the Persian language. This is particularly noteworthy due to the unique attributes of Persian, including its distinct alphabet and writing styles.