Afri-MCQA: Multimodal Cultural Question Answering for African Languages

📄 arXiv: 2601.05699v1 📥 PDF

作者: Atnafu Lambebo Tonja, Srija Anand, Emilio Villa-Cueva, Israel Abebe Azime, Jesujoba Oluwadara Alabi, Muhidin A. Mohamed, Debela Desalegn Yadeta, Negasi Haile Abadi, Abigail Oppong, Nnaemeka Casmir Obiefuna, Idris Abdulmumin, Naome A Etori, Eric Peter Wairagala, Kanda Patrick Tshinu, Imanigirimbabazi Emmanuel, Gabofetswe Malema, Alham Fikri Aji, David Ifeoluwa Adelani, Thamar Solorio

分类: cs.CL

发布日期: 2026-01-09

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出Afri-MCQA:一个面向非洲语言的多模态文化问答基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 非洲语言 多模态问答 文化问答 基准数据集 自然语言处理 语音识别 跨语言学习

📋 核心要点

  1. 现有AI研究中非洲语言代表性不足,缺乏针对非洲文化和语言特点的多模态问答基准。
  2. 构建Afri-MCQA基准,包含15种非洲语言的文本和语音问答对,由母语人士创建,关注文化背景。
  3. 实验表明,现有开放权重模型在非洲语言文化问答上表现差,凸显了文化预训练和跨语言迁移的重要性。

📝 摘要(中文)

非洲拥有世界超过三分之一的语言,但在人工智能研究中代表性不足。我们推出了Afri-MCQA,这是首个多语言文化问答基准,涵盖来自12个非洲国家的15种非洲语言的7.5k个问答对。该基准提供文本和语音模态的平行英语-非洲语言问答对,完全由母语人士创建。在Afri-MCQA上对大型语言模型(LLM)进行基准测试表明,开放权重模型在评估的文化中表现不佳,当以母语或语音查询时,开放式VQA的准确率接近于零。为了评估语言能力,我们包括旨在评估与文化知识分离的特定方面的对照实验,并且我们观察到母语和英语在文本和语音方面的性能存在显着差距。这些发现强调了对语音优先方法、基于文化的预训练和跨语言文化迁移的需求。为了支持非洲语言中更具包容性的多模态人工智能开发,我们在HuggingFace上以学术许可或CC BY-NC 4.0发布了我们的Afri-MCQA。

🔬 方法详解

问题定义:论文旨在解决非洲语言在多模态文化问答领域缺乏高质量数据集和基准的问题。现有方法,特别是大型语言模型,在处理非洲语言和文化相关的问答时表现不佳,主要原因是缺乏针对非洲语言和文化的训练数据,以及模型对文化背景知识的不足。这导致模型在理解和回答与非洲文化相关的文本和语音问题时准确率很低。

核心思路:论文的核心思路是构建一个高质量、多语言、多模态的文化问答基准数据集,即Afri-MCQA。通过该数据集,可以系统地评估现有模型在非洲语言文化问答方面的能力,并促进针对非洲语言和文化特点的AI模型开发。数据集的构建充分考虑了非洲语言的多样性和文化背景的独特性,旨在弥补现有AI研究中对非洲语言的忽视。

技术框架:Afri-MCQA数据集的构建流程主要包括以下几个阶段: 1. 数据收集:收集涵盖非洲文化、历史、地理等方面的问答对。 2. 多语言翻译:将英文问答对翻译成15种非洲语言,确保翻译的准确性和文化相关性。 3. 语音录制:由母语人士录制非洲语言的语音问答对,提供多模态数据。 4. 数据验证:由母语人士对数据进行验证和校对,确保数据的质量和准确性。 5. 数据集发布:将数据集以学术许可或CC BY-NC 4.0发布在HuggingFace上,供研究人员使用。

关键创新:Afri-MCQA的主要创新点在于: 1. 首个非洲语言多模态文化问答基准:填补了非洲语言在AI研究中的空白。 2. 多语言支持:涵盖15种非洲语言,具有广泛的代表性。 3. 多模态数据:提供文本和语音两种模态的数据,更贴近实际应用场景。 4. 文化相关性:问答对的内容与非洲文化紧密相关,能够有效评估模型对文化知识的理解能力。

关键设计:Afri-MCQA的关键设计包括: 1. 语言选择:选择具有代表性的非洲语言,覆盖不同的语系和地理区域。 2. 问答对设计:设计涵盖非洲文化各个方面的问答对,包括历史、地理、习俗、艺术等。 3. 数据质量控制:采用严格的数据验证流程,确保数据的准确性和一致性。 4. 对照实验:设计对照实验,评估模型在语言能力和文化知识方面的表现。

📊 实验亮点

实验结果表明,现有开放权重模型在Afri-MCQA上的表现不佳,特别是在开放式VQA任务中,以母语或语音查询时准确率接近于零。对照实验也显示,模型在非洲语言上的表现明显低于英语,突显了对非洲语言进行专门训练和文化预训练的必要性。这些结果为未来的研究方向提供了重要的指导。

🎯 应用场景

Afri-MCQA可应用于开发面向非洲用户的智能助手、教育应用和文化遗产保护系统。通过提升模型在非洲语言和文化理解方面的能力,可以为非洲用户提供更个性化、更贴近文化背景的服务。该研究还有助于促进非洲语言的数字化和文化传承,为非洲地区的AI发展做出贡献。

📄 摘要(原文)

Africa is home to over one-third of the world's languages, yet remains underrepresented in AI research. We introduce Afri-MCQA, the first Multilingual Cultural Question-Answering benchmark covering 7.5k Q&A pairs across 15 African languages from 12 countries. The benchmark offers parallel English-African language Q&A pairs across text and speech modalities and was entirely created by native speakers. Benchmarking large language models (LLMs) on Afri-MCQA shows that open-weight models perform poorly across evaluated cultures, with near-zero accuracy on open-ended VQA when queried in native language or speech. To evaluate linguistic competence, we include control experiments meant to assess this specific aspect separate from cultural knowledge, and we observe significant performance gaps between native languages and English for both text and speech. These findings underscore the need for speech-first approaches, culturally grounded pretraining, and cross-lingual cultural transfer. To support more inclusive multimodal AI development in African languages, we release our Afri-MCQA under academic license or CC BY-NC 4.0 on HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA)