TARAZ: Persian Short-Answer Question Benchmark for Cultural Evaluation of Language Models

📄 arXiv: 2602.22827v1 📥 PDF

作者: Reihaneh Iranmanesh, Saeedeh Davoudi, Pasha Abrishamchian, Ophir Frieder, Nazli Goharian

分类: cs.CL, cs.LG

发布日期: 2026-02-26

备注: 11 pages, 3 figures, Fifteenth biennial Language Resources and Evaluation Conference (LREC) 2026 (to appear)


💡 一句话要点

提出TARAZ:波斯语短答案问题基准,用于评估语言模型的文化理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 波斯语 语言模型评估 文化理解 短答案问题 语义相似度

📋 核心要点

  1. 现有波斯语文化基准依赖多选题和英语指标,无法捕捉波斯语的形态复杂性和语义细微差别。
  2. 提出波斯语短答案评估框架,结合规则的形态标准化与混合句法语义相似度模块,实现软匹配评分。
  3. 实验表明,该混合评估方法比精确匹配基线提高了10%的评分一致性,能捕捉深层语义。

📝 摘要(中文)

本文提出了一个全面的评估框架,用于评估大型语言模型(LLM)在波斯语中的文化能力。现有的波斯语文化基准主要依赖于多项选择题形式和以英语为中心的指标,无法捕捉波斯语的形态复杂性和语义细微差别。我们的框架引入了一种波斯语特定的短答案评估方法,该方法结合了基于规则的形态标准化和一个混合的句法和语义相似度模块,从而实现了超越精确字符串重叠的鲁棒的软匹配评分。通过对15个最先进的开源和闭源模型进行系统评估,我们证明了我们的混合评估方法相比于精确匹配基线,将评分一致性提高了+10%,因为它能够捕捉到表面方法无法检测到的含义。我们公开发布了我们的评估框架,为衡量波斯语中的文化理解能力提供了第一个标准化基准,并为跨文化LLM评估研究建立了一个可复现的基础。

🔬 方法详解

问题定义:现有波斯语文化评估基准主要采用多项选择题形式,并且评估指标主要以英语为中心,忽略了波斯语自身的形态复杂性和语义细微差别。这导致现有方法难以准确评估LLM对波斯语文化背景的真正理解程度,尤其是在需要细致语义理解的场景下。精确匹配等简单方法无法捕捉到语义相似但表达不同的答案,造成评估偏差。

核心思路:论文的核心思路是设计一种更贴近波斯语语言特点的短答案评估方法,通过结合形态标准化和混合的句法语义相似度计算,实现更鲁棒的软匹配评分。这种方法旨在克服现有评估方法对表面形式的过度依赖,从而更准确地评估LLM对波斯语文化知识的掌握程度。通过允许一定程度的语义差异,可以更公平地评估模型的理解能力。

技术框架:该评估框架主要包含以下几个模块:1) 数据收集与标注:构建包含波斯语文化相关问题的短答案数据集。2) 形态标准化:使用基于规则的方法对模型生成的答案和参考答案进行形态标准化,例如去除不必要的词缀、统一书写形式等。3) 句法相似度计算:利用句法分析工具(如依存句法分析器)提取答案的句法结构,并计算结构之间的相似度。4) 语义相似度计算:使用预训练的波斯语词向量或语言模型计算答案的语义相似度。5) 混合相似度计算:将句法相似度和语义相似度进行加权融合,得到最终的相似度得分。6) 评估指标:使用准确率、召回率、F1值等指标评估模型的性能。

关键创新:该论文的关键创新在于提出了一个波斯语特定的短答案评估框架,该框架结合了形态标准化和混合的句法语义相似度计算。与传统的精确匹配方法相比,该框架能够更准确地评估LLM对波斯语文化知识的理解程度。此外,该框架还提供了一个标准化的基准,可以用于比较不同LLM在波斯语文化理解方面的性能。

关键设计:形态标准化模块采用基于规则的方法,规则的制定需要人工分析波斯语的形态特点。句法相似度计算可以使用基于依存句法分析的树编辑距离等方法。语义相似度计算可以使用预训练的波斯语词向量(如Word2Vec、FastText)或语言模型(如BERT、RoBERTa)。混合相似度计算中,句法相似度和语义相似度的权重需要根据实验结果进行调整。评估指标的选择需要综合考虑准确率、召回率和F1值等因素。

📊 实验亮点

实验结果表明,该论文提出的混合评估方法相比于精确匹配基线,将评分一致性提高了+10%。这表明该方法能够更准确地捕捉到LLM对波斯语文化知识的理解程度,并减少了评估偏差。此外,该论文还对15个最先进的开源和闭源模型进行了系统评估,为研究人员提供了有价值的参考。

🎯 应用场景

该研究成果可应用于评估和提升语言模型在波斯语文化理解方面的能力,有助于开发更符合当地文化习惯的智能应用,例如波斯语聊天机器人、智能客服、文化教育工具等。此外,该研究提出的评估框架和方法可以推广到其他语言和文化背景下,为跨文化LLM评估研究提供借鉴。

📄 摘要(原文)

This paper presents a comprehensive evaluation framework for assessing the cultural competence of large language models (LLMs) in Persian. Existing Persian cultural benchmarks rely predominantly on multiple-choice formats and English-centric metrics that fail to capture Persian's morphological complexity and semantic nuance. Our framework introduces a Persian-specific short-answer evaluation that combines rule-based morphological normalization with a hybrid syntactic and semantic similarity module, enabling robust soft-match scoring beyond exact string overlap. Through systematic evaluation of 15 state-of-the-art open- and closed-source models, we demonstrate that our hybrid evaluation improves scoring consistency by +10% compared to exact-match baselines by capturing meaning that surface-level methods cannot detect. We publicly release our evaluation framework, providing the first standardized benchmark for measuring cultural understanding in Persian and establishing a reproducible foundation for cross-cultural LLM evaluation research.