Camellia: Benchmarking Cultural Biases in LLMs for Asian Languages

📄 arXiv: 2510.05291v1 📥 PDF

作者: Tarek Naous, Anagha Savit, Carlos Rafael Catalan, Geyang Guo, Jaehyeok Lee, Kyungdon Lee, Lheane Marie Dizon, Mengyu Ye, Neel Kothari, Sahajpreet Singh, Sarah Masud, Tanish Patwa, Trung Thanh Tran, Zohaib Khan, Alan Ritter, JinYeong Bak, Keisuke Sakaguchi, Tanmoy Chakraborty, Yuki Arase, Wei Xu

分类: cs.CL

发布日期: 2025-10-06


💡 一句话要点

Camellia:用于评估LLM在亚洲语言中文化偏见的基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文化偏见 大型语言模型 亚洲语言 基准测试 多语言处理

📋 核心要点

  1. 现有LLM在处理多语言和文化多样性实体时存在偏见,尤其是在非西方语言中,缺乏有效的评估基准。
  2. Camellia基准通过手动标注和社交媒体数据,构建了包含九种亚洲语言的文化偏见评估数据集。
  3. 实验结果表明,LLM在亚洲语言的文化适应、情感关联和实体抽取方面存在困难,且不同模型偏见各异。

📝 摘要(中文)

随着大型语言模型(LLMs)获得更强的多语言能力,它们处理文化多样性实体的能力变得至关重要。先前的工作表明,LLMs在阿拉伯语中经常偏向与西方相关的实体,引发了对文化公平性的担忧。由于缺乏多语言基准,目前尚不清楚这种偏见是否也体现在不同的非西方语言中。在本文中,我们介绍了Camellia,这是一个用于衡量九种亚洲语言(涵盖六种不同的亚洲文化)中以实体为中心的文化偏见的基准。Camellia包括19,530个手动注释的实体,这些实体与特定的亚洲或西方文化相关联,以及2,173个从社交媒体帖子中提取的实体自然发生的掩码上下文。使用Camellia,我们评估了四个最新的多语言LLM系列在各种任务中的文化偏见,例如文化语境适应、情感关联和实体抽取式问答。我们的分析表明,LLMs在所有亚洲语言的文化适应方面都存在困难,并且在不同地区开发的模型(这些地区对文化相关数据的访问权限不同)之间的性能也存在差异。我们进一步观察到,不同的LLM系列具有不同的偏见,它们在将文化与特定情感联系起来的方式上有所不同。最后,我们发现LLMs在亚洲语言的语境理解方面存在困难,从而在实体提取中造成了文化之间的性能差距。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在处理亚洲语言时存在的文化偏见问题。现有方法缺乏针对亚洲语言的文化偏见评估基准,导致无法有效衡量和解决LLMs在处理亚洲文化相关实体时的公平性问题。现有的多语言基准测试主要集中在西方语言或通用语言能力上,忽略了亚洲语言的特殊文化背景和细微差别。

核心思路:论文的核心思路是构建一个专门针对亚洲语言的文化偏见评估基准,即Camellia。该基准包含手动标注的文化关联实体和社会媒体语境数据,用于评估LLMs在文化语境适应、情感关联和实体抽取等任务中的表现。通过分析LLMs在这些任务中的表现,可以揭示其存在的文化偏见,并为改进LLMs的文化公平性提供指导。

技术框架:Camellia基准的构建包括以下几个主要阶段: 1. 实体选择:选择具有文化代表性的实体,涵盖人物、地点、组织等。 2. 文化关联标注:手动标注每个实体与特定亚洲文化或西方文化的关联程度。 3. 语境数据收集:从社交媒体收集包含实体的自然语境数据,用于评估LLMs的语境理解能力。 4. 任务设计:设计文化语境适应、情感关联和实体抽取等任务,用于评估LLMs的文化偏见。 5. 模型评估:使用Camellia基准评估多个LLM在不同任务中的表现,分析其存在的文化偏见。

关键创新:该论文的关键创新在于构建了首个专门针对亚洲语言的文化偏见评估基准Camellia。该基准不仅包含手动标注的文化关联实体,还包含从社交媒体收集的自然语境数据,能够更全面地评估LLMs在处理亚洲文化相关实体时的表现。此外,该论文还设计了多种评估任务,能够更细致地分析LLMs存在的文化偏见。

关键设计:Camellia基准的关键设计包括: 1. 多语言覆盖:涵盖九种亚洲语言,包括中文、日语、韩语、印地语等。 2. 文化多样性:涵盖六种不同的亚洲文化,包括东亚、南亚、东南亚等。 3. 实体类型多样性:包含人物、地点、组织等多种类型的实体。 4. 语境数据真实性:从社交媒体收集真实的语境数据,更贴近实际应用场景。 5. 评估任务全面性:设计文化语境适应、情感关联和实体抽取等多种评估任务。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,LLMs在亚洲语言的文化适应方面表现不佳,不同模型在情感关联方面存在显著差异。例如,某些模型在处理特定亚洲文化实体时,更容易产生负面情感。在实体抽取任务中,LLMs在亚洲语言的语境理解方面存在困难,导致不同文化之间的性能差距。具体而言,模型在某些文化背景下的实体抽取准确率明显低于其他文化背景。

🎯 应用场景

该研究成果可应用于提升多语言LLM的文化公平性和包容性,减少其在处理亚洲文化相关内容时的偏见。这有助于改善LLM在跨文化交流、内容生成和信息检索等领域的应用效果,并促进不同文化之间的理解和尊重。此外,该基准也可用于评估和比较不同LLM的文化敏感性,为模型选择和优化提供参考。

📄 摘要(原文)

As Large Language Models (LLMs) gain stronger multilingual capabilities, their ability to handle culturally diverse entities becomes crucial. Prior work has shown that LLMs often favor Western-associated entities in Arabic, raising concerns about cultural fairness. Due to the lack of multilingual benchmarks, it remains unclear if such biases also manifest in different non-Western languages. In this paper, we introduce Camellia, a benchmark for measuring entity-centric cultural biases in nine Asian languages spanning six distinct Asian cultures. Camellia includes 19,530 entities manually annotated for association with the specific Asian or Western culture, as well as 2,173 naturally occurring masked contexts for entities derived from social media posts. Using Camellia, we evaluate cultural biases in four recent multilingual LLM families across various tasks such as cultural context adaptation, sentiment association, and entity extractive QA. Our analyses show a struggle by LLMs at cultural adaptation in all Asian languages, with performance differing across models developed in regions with varying access to culturally-relevant data. We further observe that different LLM families hold their distinct biases, differing in how they associate cultures with particular sentiments. Lastly, we find that LLMs struggle with context understanding in Asian languages, creating performance gaps between cultures in entity extraction.