MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs
作者: Raoyuan Zhao, Beiduo Chen, Barbara Plank, Michael A. Hedderich
分类: cs.CL
发布日期: 2025-05-27 (更新: 2025-09-22)
备注: Accepted by EMNLP 2025 Findings, 33 pages, 30 figures
💡 一句话要点
MAKIEval:一个基于维基数据的多语言框架,用于评估LLM的文化意识。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文化意识 多语言评估 维基数据 知识图谱
📋 核心要点
- 现有LLM以英语为中心的预训练导致跨语言文化意识差异,缺乏有效的多语言评估方法。
- MAKIEval利用维基数据的多语言结构,自动识别和链接文化实体,实现可扩展的文化意识评估。
- 实验结果表明,LLM在英语中表现出更强的文化意识,揭示了模型对不同语言文化知识的掌握程度差异。
📝 摘要(中文)
大型语言模型(LLMs)在全球范围内被广泛使用,但其以英语为中心的预训练引发了人们对跨语言文化意识差异的担忧,这通常会导致有偏见的输出。然而,由于基准测试的限制和翻译质量的问题,全面的多语言评估仍然具有挑战性。为了更好地评估这些差异,我们引入了MAKIEval,这是一个自动化的多语言框架,用于评估LLM在不同语言、地区和主题中的文化意识。MAKIEval评估开放式文本生成,捕捉模型如何在自然语言中表达具有文化基础的知识。利用维基数据的多语言结构作为跨语言锚点,它可以自动识别模型输出中的文化实体,并将它们链接到结构化知识,从而实现可扩展的、与语言无关的评估,而无需手动注释或翻译。然后,我们引入了四个指标来捕捉文化意识的互补维度:粒度、多样性、文化特异性和跨语言共识。我们评估了来自世界不同地区的7个LLM,包括开源和专有系统,涵盖13种语言、19个国家和地区以及6个具有文化意义的主题(例如,食物、服装)。值得注意的是,我们发现模型在英语中表现出更强的文化意识,这表明英语提示能更有效地激活具有文化基础的知识。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)在跨语言应用中存在文化意识不足的问题,尤其是在非英语语境下,模型可能产生带有偏见或不准确的文化信息。现有的多语言评估方法通常依赖于人工翻译或标注,成本高昂且难以扩展,同时也难以保证翻译质量的一致性。因此,如何高效、准确地评估LLMs在不同语言和文化背景下的文化意识是一个亟待解决的问题。
核心思路:MAKIEval的核心思路是利用维基百科的多语言知识图谱作为跨语言的桥梁,实现自动化的文化意识评估。通过将LLM生成的文本与维基百科中的文化实体进行链接,可以无需人工干预地识别模型输出中涉及的文化概念,并评估其准确性和相关性。这种方法避免了传统评估方法中对人工翻译和标注的依赖,从而大大提高了评估效率和可扩展性。
技术框架:MAKIEval的整体框架包括以下几个主要模块:1) 提示生成模块:根据预定义的文化主题和地区,生成多语言的提示语,用于引导LLM生成文本。2) 文本生成模块:使用LLM对提示语进行文本生成,得到模型输出的文本。3) 文化实体识别与链接模块:自动识别模型输出文本中的文化实体,并将其链接到维基百科中的对应条目。4) 文化意识评估模块:基于链接的文化实体,计算一系列评估指标,包括粒度、多样性、文化特异性和跨语言共识,从而评估LLM的文化意识水平。
关键创新:MAKIEval最重要的技术创新在于其自动化的跨语言文化意识评估方法。与传统的依赖人工翻译和标注的方法不同,MAKIEval利用维基百科的多语言知识图谱,实现了无需人工干预的文化实体识别和链接。这种方法不仅大大提高了评估效率和可扩展性,还能够更客观地评估LLM在不同语言和文化背景下的表现。
关键设计:MAKIEval的关键设计包括:1) 使用维基百科作为跨语言知识库,确保评估的客观性和准确性。2) 设计了一系列评估指标,包括粒度、多样性、文化特异性和跨语言共识,从而全面评估LLM的文化意识水平。3) 针对不同的文化主题和地区,设计了多样的提示语,以确保评估的覆盖面和代表性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同LLM在不同语言和文化背景下的文化意识存在显著差异。具体而言,模型在英语提示下表现出更强的文化意识,表明模型对英语文化知识的掌握程度更高。此外,研究还发现,不同模型的文化意识水平与其训练数据和架构有关。该研究为评估和改进LLM的跨文化能力提供了有价值的参考。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型在多语言环境下的文化敏感性和准确性,降低模型在跨文化交流中产生误解或冒犯的可能性。此外,该框架还可用于教育领域,帮助学生更好地理解不同文化的知识和价值观,促进跨文化交流与合作。未来,该研究可扩展到更多语言和文化领域,为构建更加公平、包容的人工智能系统提供技术支持。
📄 摘要(原文)
Large language models (LLMs) are used globally across many languages, but their English-centric pretraining raises concerns about cross-lingual disparities for cultural awareness, often resulting in biased outputs. However, comprehensive multilingual evaluation remains challenging due to limited benchmarks and questionable translation quality. To better assess these disparities, we introduce MAKIEval, an automatic multilingual framework for evaluating cultural awareness in LLMs across languages, regions, and topics. MAKIEval evaluates open-ended text generation, capturing how models express culturally grounded knowledge in natural language. Leveraging Wikidata's multilingual structure as a cross-lingual anchor, it automatically identifies cultural entities in model outputs and links them to structured knowledge, enabling scalable, language-agnostic evaluation without manual annotation or translation. We then introduce four metrics that capture complementary dimensions of cultural awareness: granularity, diversity, cultural specificity, and consensus across languages. We assess 7 LLMs developed from different parts of the world, encompassing both open-source and proprietary systems, across 13 languages, 19 countries and regions, and 6 culturally salient topics (e.g., food, clothing). Notably, we find that models tend to exhibit stronger cultural awareness in English, suggesting that English prompts more effectively activate culturally grounded knowledge.