PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian

作者: Erfan Moosavi Monazzah, Vahid Rahimzadeh, Yadollah Yaghoobzadeh, Azadeh Shakery, Mohammad Taher Pilehvar

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-02-11

备注: Accepted at NAACL 2025 Main Conference, the dataset is available on HuggingFace (see https://huggingface.co/datasets/teias-ai/percul)

期刊: Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) - Pages: 12670 - 12687

DOI: 10.18653/v1/2025.naacl-long.631

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

PerCul：提出波斯语文化评估数据集，用于评估LLM的文化敏感性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 波斯语 文化评估 大型语言模型 跨文化NLP 数据集 文化敏感性

📋 核心要点

现有大型语言模型主要基于西方文化数据训练，缺乏对非英语文化（如波斯文化）的理解和敏感性。
论文提出PerCul数据集，通过故事驱动的多项选择题，评估LLM在波斯文化背景下的表现，避免翻译捷径。
实验评估了多种LLM，结果表明模型在波斯文化理解方面与人类存在显著差距，为后续研究奠定基础。

📝 摘要（中文）

大型语言模型主要反映西方文化，这很大程度上是由于以英语为中心的训练数据占据主导地位。这种不平衡带来了一个重大挑战，因为LLM越来越多地被用于不同的环境中，但对其在非英语语言（包括波斯语）中的文化能力评估不足。为了解决这个问题，我们引入了PerCul，这是一个精心构建的数据集，旨在评估LLM对波斯文化的敏感性。PerCul以故事为基础，包含多项选择题，捕捉了具有文化细微差别的场景。与现有基准不同，PerCul由波斯语母语注释者提供输入进行策划，以确保真实性并防止使用翻译作为捷径。我们评估了几种最先进的多语言和波斯语专用LLM，为未来跨文化NLP评估的研究奠定了基础。我们的实验表明，最佳闭源模型与普通人基线之间存在11.3%的差距，而使用最佳开源模型时，差距增加到21.3%。您可以通过以下链接访问该数据集：https://huggingface.co/datasets/teias-ai/percul

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在波斯文化理解和敏感性方面的不足问题。现有LLM主要基于西方文化数据训练，导致其在处理波斯文化相关任务时表现不佳。现有的评估方法也往往依赖于翻译，无法真正衡量模型对文化细微差别的理解。因此，需要一种专门针对波斯文化的评估基准，以推动LLM在该领域的进步。

核心思路：论文的核心思路是构建一个高质量的、以故事为驱动的波斯文化评估数据集PerCul。该数据集包含具有文化细微差别的场景，并采用多项选择题的形式，要求模型在理解故事背景的基础上做出选择。通过这种方式，可以更有效地评估模型对波斯文化的理解和敏感性，避免仅仅依赖于表面上的语言翻译。

技术框架：PerCul数据集的构建流程主要包括以下几个阶段： 1. 场景设计：由波斯语母语专家设计具有文化代表性的故事场景。 2. 问题生成：针对每个场景，设计多个多项选择题，考察模型对文化细微差别的理解。 3. 答案标注：由多位波斯语母语注释者对问题进行标注，确保答案的准确性和一致性。 4. 数据清洗：对数据集进行清洗和验证，去除错误或不一致的样本。

关键创新：PerCul数据集的关键创新在于其专注于波斯文化，并采用故事驱动的多项选择题形式。与现有的评估基准相比，PerCul更能够捕捉到文化细微差别，避免了翻译带来的信息损失。此外，PerCul的构建过程由波斯语母语专家主导，确保了数据集的真实性和可靠性。

关键设计：PerCul数据集的关键设计包括： 1. 故事场景：故事场景涵盖了波斯文化的各个方面，包括家庭、社会、宗教、历史等。 2. 问题类型：问题类型多样，包括理解、推理、判断等，考察模型对文化细微差别的不同层次的理解。 3. 答案选项：答案选项设计具有迷惑性，需要模型深入理解故事背景才能做出正确的选择。 4. 数据集规模：数据集包含足够数量的样本，以保证评估结果的可靠性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的LLM在PerCul数据集上的表现也远低于人类水平。最佳闭源模型与普通人基线之间存在11.3%的差距，而最佳开源模型与普通人基线之间的差距高达21.3%。这表明LLM在波斯文化理解方面仍有很大的提升空间，PerCul数据集可以有效地评估和指导LLM在该领域的改进。

🎯 应用场景

该研究成果可应用于提升LLM在波斯语环境下的文化适应性和用户体验。例如，可以用于开发更符合波斯文化习惯的智能客服、内容推荐系统和教育应用。此外，PerCul数据集可以作为评估和改进LLM跨文化理解能力的基准，推动多语言和跨文化NLP领域的发展，促进不同文化之间的交流与理解。

📄 摘要（原文）

Large language models predominantly reflect Western cultures, largely due to the dominance of English-centric training data. This imbalance presents a significant challenge, as LLMs are increasingly used across diverse contexts without adequate evaluation of their cultural competence in non-English languages, including Persian. To address this gap, we introduce PerCul, a carefully constructed dataset designed to assess the sensitivity of LLMs toward Persian culture. PerCul features story-based, multiple-choice questions that capture culturally nuanced scenarios. Unlike existing benchmarks, PerCul is curated with input from native Persian annotators to ensure authenticity and to prevent the use of translation as a shortcut. We evaluate several state-of-the-art multilingual and Persian-specific LLMs, establishing a foundation for future research in cross-cultural NLP evaluation. Our experiments demonstrate a 11.3% gap between best closed source model and layperson baseline while the gap increases to 21.3% by using the best open-weight model. You can access the dataset from here: https://huggingface.co/datasets/teias-ai/percul

PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理