PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian

📄 arXiv: 2502.07459v1 📥 PDF

作者: Erfan Moosavi Monazzah, Vahid Rahimzadeh, Yadollah Yaghoobzadeh, Azadeh Shakery, Mohammad Taher Pilehvar

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-02-11

备注: Accepted at NAACL 2025 Main Conference, the dataset is available on HuggingFace (see https://huggingface.co/datasets/teias-ai/percul)

期刊: Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) - Pages: 12670 - 12687

DOI: 10.18653/v1/2025.naacl-long.631

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

PerCul:提出波斯语文化评估数据集,用于评估LLM的文化敏感性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 波斯语 文化评估 大型语言模型 跨文化NLP 数据集 文化敏感性

📋 核心要点

  1. 现有大型语言模型主要基于西方文化数据训练,缺乏对非英语文化(如波斯文化)的理解和敏感性。
  2. 论文提出PerCul数据集,通过故事驱动的多项选择题,评估LLM在波斯文化背景下的表现,避免翻译捷径。
  3. 实验评估了多种LLM,结果表明模型在波斯文化理解方面与人类存在显著差距,为后续研究奠定基础。

📝 摘要(中文)

大型语言模型主要反映西方文化,这很大程度上是由于以英语为中心的训练数据占据主导地位。这种不平衡带来了一个重大挑战,因为LLM越来越多地被用于不同的环境中,但对其在非英语语言(包括波斯语)中的文化能力评估不足。为了解决这个问题,我们引入了PerCul,这是一个精心构建的数据集,旨在评估LLM对波斯文化的敏感性。PerCul以故事为基础,包含多项选择题,捕捉了具有文化细微差别的场景。与现有基准不同,PerCul由波斯语母语注释者提供输入进行策划,以确保真实性并防止使用翻译作为捷径。我们评估了几种最先进的多语言和波斯语专用LLM,为未来跨文化NLP评估的研究奠定了基础。我们的实验表明,最佳闭源模型与普通人基线之间存在11.3%的差距,而使用最佳开源模型时,差距增加到21.3%。您可以通过以下链接访问该数据集:https://huggingface.co/datasets/teias-ai/percul

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在波斯文化理解和敏感性方面的不足问题。现有LLM主要基于西方文化数据训练,导致其在处理波斯文化相关任务时表现不佳。现有的评估方法也往往依赖于翻译,无法真正衡量模型对文化细微差别的理解。因此,需要一种专门针对波斯文化的评估基准,以推动LLM在该领域的进步。

核心思路:论文的核心思路是构建一个高质量的、以故事为驱动的波斯文化评估数据集PerCul。该数据集包含具有文化细微差别的场景,并采用多项选择题的形式,要求模型在理解故事背景的基础上做出选择。通过这种方式,可以更有效地评估模型对波斯文化的理解和敏感性,避免仅仅依赖于表面上的语言翻译。

技术框架:PerCul数据集的构建流程主要包括以下几个阶段: 1. 场景设计:由波斯语母语专家设计具有文化代表性的故事场景。 2. 问题生成:针对每个场景,设计多个多项选择题,考察模型对文化细微差别的理解。 3. 答案标注:由多位波斯语母语注释者对问题进行标注,确保答案的准确性和一致性。 4. 数据清洗:对数据集进行清洗和验证,去除错误或不一致的样本。

关键创新:PerCul数据集的关键创新在于其专注于波斯文化,并采用故事驱动的多项选择题形式。与现有的评估基准相比,PerCul更能够捕捉到文化细微差别,避免了翻译带来的信息损失。此外,PerCul的构建过程由波斯语母语专家主导,确保了数据集的真实性和可靠性。

关键设计:PerCul数据集的关键设计包括: 1. 故事场景:故事场景涵盖了波斯文化的各个方面,包括家庭、社会、宗教、历史等。 2. 问题类型:问题类型多样,包括理解、推理、判断等,考察模型对文化细微差别的不同层次的理解。 3. 答案选项:答案选项设计具有迷惑性,需要模型深入理解故事背景才能做出正确的选择。 4. 数据集规模:数据集包含足够数量的样本,以保证评估结果的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最先进的LLM在PerCul数据集上的表现也远低于人类水平。最佳闭源模型与普通人基线之间存在11.3%的差距,而最佳开源模型与普通人基线之间的差距高达21.3%。这表明LLM在波斯文化理解方面仍有很大的提升空间,PerCul数据集可以有效地评估和指导LLM在该领域的改进。

🎯 应用场景

该研究成果可应用于提升LLM在波斯语环境下的文化适应性和用户体验。例如,可以用于开发更符合波斯文化习惯的智能客服、内容推荐系统和教育应用。此外,PerCul数据集可以作为评估和改进LLM跨文化理解能力的基准,推动多语言和跨文化NLP领域的发展,促进不同文化之间的交流与理解。

📄 摘要(原文)

Large language models predominantly reflect Western cultures, largely due to the dominance of English-centric training data. This imbalance presents a significant challenge, as LLMs are increasingly used across diverse contexts without adequate evaluation of their cultural competence in non-English languages, including Persian. To address this gap, we introduce PerCul, a carefully constructed dataset designed to assess the sensitivity of LLMs toward Persian culture. PerCul features story-based, multiple-choice questions that capture culturally nuanced scenarios. Unlike existing benchmarks, PerCul is curated with input from native Persian annotators to ensure authenticity and to prevent the use of translation as a shortcut. We evaluate several state-of-the-art multilingual and Persian-specific LLMs, establishing a foundation for future research in cross-cultural NLP evaluation. Our experiments demonstrate a 11.3% gap between best closed source model and layperson baseline while the gap increases to 21.3% by using the best open-weight model. You can access the dataset from here: https://huggingface.co/datasets/teias-ai/percul