PersLitEval: Fine-grained Benchmark and Evaluation of LLMs on Persian Literature Questions

📄 arXiv: 2605.27015v1 📥 PDF

作者: Ruhallah Niazi, Faeze Ghorbanpour, Alexander Fraser

分类: cs.CL

发布日期: 2026-05-26


💡 一句话要点

PersLitEval:构建波斯文学细粒度评测基准,评估大型语言模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 波斯文学 评测基准 细粒度评估 多语言能力

📋 核心要点

  1. 现有大型语言模型在非英语文学知识评估方面存在不足,缺乏针对性评测基准。
  2. PersLitEval基准数据集包含细粒度波斯文学题目,旨在全面评估LLMs的文学理解能力。
  3. 实验结果表明,LLMs在不同文学类别任务中表现差异显著,提示策略对性能影响较大。

📝 摘要(中文)

本文提出了PersLitEval,一个包含4514道波斯文学多项选择题的基准数据集,用于评估大型语言模型(LLMs)在非英语文学知识方面的能力。该数据集涵盖八个细粒度类别,包括拼写、文学手法、语法、词汇、构词和概念理解,题目来源于Konkur大学入学考试材料。研究评估了六个LLMs在十种提示策略下的表现,揭示了不同类别任务难度上的显著差异:模型在概念相似性任务上表现更好,但在形式语言分析方面表现不佳,其中拼写和构词对所有模型来说都是最困难的。提示策略对性能有显著影响,解释性的少样本示例产生了最佳结果,尤其是在形式语言类别中。错误分析确定了三种失败模式:语义理解差距、形式语言知识差距以及计数/枚举错误,表明不同的类别需要不同的改进策略。

🔬 方法详解

问题定义:现有的大型语言模型在多语言能力上取得了显著进展,但在非英语文学知识的评估方面仍然存在不足。缺乏专门针对非英语文学的细粒度评估基准,难以全面了解LLMs在文学理解方面的能力。特别是对于波斯文学,现有的评估方法不够完善,无法准确反映LLMs在拼写、文学手法、语法、词汇、构词和概念理解等方面的掌握程度。

核心思路:本文的核心思路是构建一个高质量的波斯文学评估基准PersLitEval,该基准包含多个细粒度类别,能够全面评估LLMs在波斯文学知识方面的能力。通过对不同LLMs在PersLitEval上的表现进行评估,可以深入了解LLMs在不同文学类别任务中的优势和不足,为后续的改进提供指导。

技术框架:PersLitEval基准数据集包含4514道波斯文学多项选择题,题目来源于Konkur大学入学考试材料。这些题目被分为八个细粒度类别:拼写、文学手法、语法、词汇、构词和概念理解等。研究人员选择了六个LLMs,并在十种不同的提示策略下对它们进行了评估。通过分析LLMs在不同类别和提示策略下的表现,研究人员可以了解LLMs在波斯文学知识方面的掌握程度,并识别出潜在的改进方向。

关键创新:PersLitEval基准数据集的创新之处在于其细粒度分类和高质量的题目来源。与现有的文学评估方法相比,PersLitEval能够更全面、更准确地评估LLMs在波斯文学知识方面的能力。此外,该研究还深入分析了LLMs在不同类别任务中的表现,并识别出了三种主要的失败模式:语义理解差距、形式语言知识差距以及计数/枚举错误。

关键设计:在实验设计方面,研究人员采用了十种不同的提示策略,包括零样本、少样本和解释性少样本等。通过比较不同提示策略下的性能,研究人员可以了解提示策略对LLMs性能的影响。此外,研究人员还对LLMs的错误进行了分析,以识别出潜在的改进方向。在数据处理方面,研究人员对题目进行了清洗和标注,确保数据的质量和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs在概念相似性任务上表现较好,但在形式语言分析方面表现较差,拼写和构词是最困难的类别。解释性的少样本示例提示策略表现最佳,尤其是在形式语言类别中。错误分析揭示了语义理解、形式语言知识和计数/枚举等三种主要失败模式。不同模型在不同类别上的表现差异显著,表明需要针对不同类别进行改进。

🎯 应用场景

该研究成果可应用于提升大型语言模型在非英语文学领域的理解能力,尤其是在波斯文学方面。PersLitEval基准数据集可作为评估和改进LLMs的工具,促进跨语言文化交流和教育。此外,该研究的错误分析结果可为LLMs的训练和优化提供指导,使其更好地理解和运用波斯文学知识。

📄 摘要(原文)

Despite impressive multilingual capabilities, large language models (LLMs) remain poorly evaluated on literary knowledge in non-English languages. We introduce PersLitEval, a benchmark of 4,514 Persian literature multiple-choice questions across eight fine-grained categories spanning spelling, literary devices, grammar, vocabulary, word formation, and conceptual understanding, sourced from materials for the Konkur university entrance examination. We evaluate six LLMs across ten prompting strategies, revealing striking category-level disparities across three tiers of task difficulty: models reach higher accuracy on conceptual similarity tasks but struggle with formal linguistic analysis, with spelling and word formation proving the hardest across all models. Prompting strategy has a significant impact on performance, with explained few-shot examples yielding the best results, particularly on formal linguistic categories. An error analysis identifies three failure modes: semantic comprehension gaps, formal linguistic knowledge gaps, and counting/enumeration errors, suggesting that different categories require different improvement strategies.