When Tom Eats Kimchi: Evaluating Cultural Bias of Multimodal Large Language Models in Cultural Mixture Contexts

📄 arXiv: 2503.16826v1 📥 PDF

作者: Jun Seong Kim, Kyaw Ye Thu, Javad Ismayilzada, Junyeong Park, Eunsu Kim, Huzama Ahmad, Na Min An, James Thorne, Alice Oh

分类: cs.CL

发布日期: 2025-03-21

备注: 12 pages

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出MixCuBe基准,评估多模态大模型在文化混合场景下的文化偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 文化偏见 跨文化理解 基准数据集 低资源文化

📋 核心要点

  1. 现有MLLM在处理混合文化场景时,过度依赖人物视觉特征,导致对食物等实体的错误识别,存在文化偏见。
  2. 论文提出MixCuBe基准,通过系统性地引入不同种族和文化背景的扰动,来评估MLLM的跨文化理解能力。
  3. 实验表明,MLLM在高资源文化中表现更好,但在低资源文化中存在显著的准确率下降,揭示了模型对不同文化的敏感性差异。

📝 摘要(中文)

在全球化日益深入的背景下,多模态大型语言模型(MLLM)正确识别和响应混合文化输入至关重要。例如,模型不仅应在亚洲女性食用时正确识别泡菜(韩国食物),也应在非洲男性食用时正确识别。然而,当前的MLLM过度依赖人物的视觉特征,导致实体错误分类。为了检验MLLM对不同种族的鲁棒性,我们引入了跨文化偏见基准MixCuBe,并研究了来自五个国家和四个种族的元素。我们的研究结果表明,MLLM在高资源文化中实现了更高的准确性和对扰动的更低敏感性,但在低资源文化中则不然。GPT-4o作为整体表现最佳的模型,在低资源文化中,原始文化环境和扰动文化环境之间的准确率差异高达58%。我们的数据集已在https://huggingface.co/datasets/kyawyethu/MixCuBe上公开。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在处理混合文化场景时存在的文化偏见问题。现有MLLM在识别图像中的物体时,容易受到人物种族等视觉特征的影响,导致对低资源文化背景下的物体识别准确率下降。这种偏见会限制MLLM在全球化环境下的应用,并可能产生不公平的结果。

核心思路:论文的核心思路是通过构建一个包含跨文化扰动的基准数据集MixCuBe,来系统性地评估MLLM对不同文化背景的敏感性。MixCuBe通过将不同种族的人与不同文化的食物进行组合,创造出混合文化场景,从而测试模型是否能够正确识别食物,而不会受到人物种族的影响。

技术框架:MixCuBe基准包含来自五个国家(包括高资源和低资源文化)和四个种族的元素。数据集的构建过程包括:1)选择代表性食物和人物;2)创建混合文化场景的图像;3)设计评估指标,用于衡量模型在不同文化背景下的准确率和敏感性。评估流程包括:1)将图像输入到MLLM中;2)获取模型的预测结果;3)根据评估指标计算模型的性能。

关键创新:论文的关键创新在于提出了MixCuBe基准,这是一个专门用于评估MLLM在文化混合场景下文化偏见的benchmark。与现有的数据集相比,MixCuBe更加关注跨文化因素的影响,能够更全面地评估模型的文化理解能力。此外,论文还提出了相应的评估指标,用于量化模型在不同文化背景下的性能差异。

关键设计:MixCuBe数据集的关键设计在于其混合文化场景的构建方式。通过将不同种族的人与不同文化的食物进行组合,数据集能够模拟真实世界中存在的文化多样性。此外,数据集还包含了不同难度的样本,从而能够更全面地评估模型的性能。论文没有详细说明具体的参数设置、损失函数或网络结构,因为其重点在于数据集的构建和评估,而非模型本身的改进。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4o在低资源文化中,原始文化环境和扰动文化环境之间的准确率差异高达58%,揭示了当前MLLM在处理低资源文化时存在的显著偏见。MixCuBe基准的引入为评估和改进MLLM的文化敏感性提供了有力的工具。

🎯 应用场景

该研究成果可应用于开发更公平、更具文化敏感性的多模态人工智能系统。例如,在智能助手、图像搜索、内容推荐等领域,可以利用该研究来减少文化偏见,提高模型在不同文化背景下的适用性。未来的研究可以进一步探索如何利用MixCuBe来训练更鲁棒的MLLM。

📄 摘要(原文)

In a highly globalized world, it is important for multi-modal large language models (MLLMs) to recognize and respond correctly to mixed-cultural inputs. For example, a model should correctly identify kimchi (Korean food) in an image both when an Asian woman is eating it, as well as an African man is eating it. However, current MLLMs show an over-reliance on the visual features of the person, leading to misclassification of the entities. To examine the robustness of MLLMs to different ethnicity, we introduce MixCuBe, a cross-cultural bias benchmark, and study elements from five countries and four ethnicities. Our findings reveal that MLLMs achieve both higher accuracy and lower sensitivity to such perturbation for high-resource cultures, but not for low-resource cultures. GPT-4o, the best-performing model overall, shows up to 58% difference in accuracy between the original and perturbed cultural settings in low-resource cultures. Our dataset is publicly available at: https://huggingface.co/datasets/kyawyethu/MixCuBe.