EgMM-Corpus: A Multimodal Vision-Language Dataset for Egyptian Culture

📄 arXiv: 2510.16198v1 📥 PDF

作者: Mohamed Gamil, Abdelrahman Elsayed, Abdelrahman Lila, Ahmed Gad, Hesham Abdelgawad, Mohamed Aref, Ahmed Fares

分类: cs.CL

发布日期: 2025-10-17


💡 一句话要点

提出EgMM-Corpus:一个用于埃及文化理解的多模态视觉-语言数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 埃及文化 视觉-语言模型 文化偏见 零样本学习

📋 核心要点

  1. 现有AI模型在文化多样性理解方面存在不足,尤其缺乏针对中东和非洲地区的数据集。
  2. 构建EgMM-Corpus数据集,包含埃及文化相关的地标、食物、民俗等多模态数据,并进行人工验证。
  3. 实验表明,现有CLIP模型在EgMM-Corpus上表现不佳,验证了数据集的价值,并揭示了模型的文化偏见。

📝 摘要(中文)

本文介绍了一个名为EgMM-Corpus的多模态数据集,专门用于埃及文化。由于目前在AI领域,特别是中东和非洲地区,具有文化多样性的多模态数据集仍然有限,因此我们设计并运行了一个新的数据收集流程,收集了超过3000张图像,涵盖了地标、食物和民俗等313个概念。数据集中的每个条目都经过人工验证,以确保其文化真实性和多模态一致性。EgMM-Corpus旨在为评估和训练埃及文化背景下的视觉-语言模型提供可靠的资源。此外,我们评估了对比语言-图像预训练模型CLIP在EgMM-Corpus上的零样本性能,在分类任务中,其Top-1准确率为21.2%,Top-5准确率为36.4%。这些结果突显了大规模视觉-语言模型中存在的文化偏见,并证明了EgMM-Corpus作为开发具有文化意识模型基准的重要性。

🔬 方法详解

问题定义:现有视觉-语言模型在处理具有特定文化背景的数据时表现不佳,缺乏针对埃及文化的多模态数据集,导致模型难以理解和识别埃及文化相关的概念。现有方法无法有效解决文化偏见问题,需要专门的数据集进行训练和评估。

核心思路:通过构建一个高质量、文化相关的多模态数据集,为视觉-语言模型提供学习和理解埃及文化知识的资源。该数据集旨在弥合现有模型在文化理解方面的差距,并促进开发更具文化意识的模型。

技术框架:该研究的核心在于数据收集流程的设计与实施。首先,定义了涵盖地标、食物和民俗等313个埃及文化相关的概念。然后,通过图像搜索和人工拍摄等方式收集图像数据,并为每张图像生成相应的文本描述。最后,对每个数据条目进行人工验证,以确保其文化真实性和多模态一致性。

关键创新:该研究的关键创新在于构建了一个专门针对埃及文化的多模态数据集,并设计了严格的数据收集和验证流程,保证了数据的质量和文化相关性。与现有通用数据集相比,EgMM-Corpus更侧重于特定文化背景下的视觉-语言理解。

关键设计:数据集中包含超过3000张图像,涵盖313个概念。每个概念包含多个图像和相应的文本描述。数据收集过程中,注重图像的多样性和文本描述的准确性。人工验证过程包括文化专家对图像和文本的审核,以确保其符合埃及文化的真实表达。

📊 实验亮点

在EgMM-Corpus数据集上,零样本CLIP模型的Top-1准确率为21.2%,Top-5准确率为36.4%。该结果表明,现有大规模视觉-语言模型在处理埃及文化相关数据时表现不佳,存在明显的文化偏见。EgMM-Corpus为评估和改进模型的文化理解能力提供了一个有价值的基准。

🎯 应用场景

EgMM-Corpus数据集可用于训练和评估视觉-语言模型在埃及文化理解方面的能力,促进开发更具文化意识的AI系统。该数据集可应用于文化遗产保护、旅游推荐、教育等领域,帮助用户更好地了解和体验埃及文化。未来,可以扩展该数据集,涵盖更多文化领域,并与其他文化数据集进行比较研究。

📄 摘要(原文)

Despite recent advances in AI, multimodal culturally diverse datasets are still limited, particularly for regions in the Middle East and Africa. In this paper, we introduce EgMM-Corpus, a multimodal dataset dedicated to Egyptian culture. By designing and running a new data collection pipeline, we collected over 3,000 images, covering 313 concepts across landmarks, food, and folklore. Each entry in the dataset is manually validated for cultural authenticity and multimodal coherence. EgMM-Corpus aims to provide a reliable resource for evaluating and training vision-language models in an Egyptian cultural context. We further evaluate the zero-shot performance of Contrastive Language-Image Pre-training CLIP on EgMM-Corpus, on which it achieves 21.2% Top-1 accuracy and 36.4% Top-5 accuracy in classification. These results underscore the existing cultural bias in large-scale vision-language models and demonstrate the importance of EgMM-Corpus as a benchmark for developing culturally aware models.