TARAZ: Persian Short-Answer Question Benchmark for Cultural Evaluation of Language Models
作者: Reihaneh Iranmanesh, Saeedeh Davoudi, Pasha Abrishamchian, Ophir Frieder, Nazli Goharian
分类: cs.CL, cs.LG
发布日期: 2026-02-28
💡 一句话要点
提出TARAZ:波斯语短答案题基准,用于评估语言模型的文化理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 波斯语 语言模型 文化理解 短答案题 评估基准
📋 核心要点
- 现有波斯语文化基准依赖多选题和英语指标,无法捕捉波斯语的形态复杂性和语义细微差别。
- 提出波斯语短答案评估框架,结合形态归一化与混合句法语义相似度,实现鲁棒的软匹配评分。
- 实验表明,该混合评估方法比精确匹配基线提升了10%的评分一致性,更好地捕捉了语义信息。
📝 摘要(中文)
本文提出了一个全面的评估框架,用于评估大型语言模型(LLM)在波斯语中的文化能力。现有的波斯语文化基准主要依赖于多项选择题形式和以英语为中心的指标,无法捕捉波斯语的形态复杂性和语义细微差别。我们的框架引入了一种波斯语特定的短答案评估方法,该方法结合了基于规则的形态归一化和一个混合的句法和语义相似度模块,从而实现了超越精确字符串重叠的鲁棒的软匹配评分。通过对15个最先进的开源和闭源模型进行系统评估,我们证明了我们的混合评估方法比精确匹配基线提高了+10%的评分一致性,因为它能够捕捉到表面方法无法检测到的含义。我们公开发布我们的评估框架,为衡量波斯语的文化理解能力提供了第一个标准化基准,并为跨文化LLM评估研究建立了可重复的基础。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大型语言模型在波斯语文化理解方面的能力。现有方法主要依赖多项选择题和以英语为中心的评估指标,无法充分捕捉波斯语的形态复杂性和语义细微差别,导致评估结果不够准确和全面。现有方法难以进行软匹配,对语言模型生成的答案要求过于严格。
核心思路:论文的核心思路是构建一个波斯语特定的短答案题基准,并设计一种混合的评估方法,该方法结合了基于规则的形态归一化和句法语义相似度计算,从而实现更鲁棒和准确的文化理解能力评估。通过短答案形式,鼓励模型生成更丰富的答案,从而更全面地评估其文化理解能力。
技术框架:TARAZ评估框架包含以下主要模块:1) 波斯语短答案题数据集;2) 基于规则的形态归一化模块,用于处理波斯语的形态变异;3) 混合句法和语义相似度模块,用于计算模型答案与参考答案之间的相似度。该模块结合了句法分析和语义嵌入技术,以捕捉答案之间的深层语义关系。整体流程是:模型生成答案 -> 形态归一化 -> 句法语义相似度计算 -> 评分。
关键创新:该论文的关键创新在于:1) 提出了一个波斯语特定的短答案题基准,填补了该领域的空白;2) 设计了一种混合的句法和语义相似度评估方法,该方法能够更准确地评估模型在波斯语文化理解方面的能力,克服了传统方法的局限性;3) 结合形态归一化,提升了评估的鲁棒性。
关键设计:形态归一化模块使用基于规则的方法,将模型生成的答案和参考答案进行标准化处理,例如去除后缀、词干提取等。句法语义相似度模块可能使用了预训练的波斯语词向量或语言模型,例如FaBERT,来计算答案之间的语义相似度。具体参数设置和损失函数细节未知。
📊 实验亮点
实验结果表明,该论文提出的混合评估方法比精确匹配基线提高了+10%的评分一致性。这表明该方法能够更有效地捕捉到模型答案中的语义信息,从而更准确地评估其文化理解能力。该基准和评估框架的发布,为波斯语文化理解相关的研究提供了一个标准化的平台。
🎯 应用场景
该研究成果可应用于评估和提升语言模型在波斯语文化背景下的理解能力,有助于开发更符合当地文化习惯和价值观的智能系统。例如,可用于改进波斯语聊天机器人、智能客服和内容生成工具,使其能够更好地理解和回应用户的文化需求。此外,该框架也为跨文化语言模型评估研究提供了借鉴。
📄 摘要(原文)
This paper presents a comprehensive evaluation framework for assessing the cultural competence of large language models (LLMs) in Persian. Existing Persian cultural benchmarks rely predominantly on multiple-choice formats and English-centric metrics that fail to capture Persian's morphological complexity and semantic nuance. Our framework introduces a Persian-specific short-answer evaluation that combines rule-based morphological normalization with a hybrid syntactic and semantic similarity module, enabling robust soft-match scoring beyond exact string overlap. Through systematic evaluation of 15 state-of-the-art open- and closed-source models, we demonstrate that our hybrid evaluation improves scoring consistency by +10% compared to exact-match baselines by capturing meaning that surface-level methods cannot detect. We publicly release our evaluation framework, providing the first standardized benchmark for measuring cultural understanding in Persian and establishing a reproducible foundation for cross-cultural LLM evaluation research.