Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation

📄 arXiv: 2504.07072v2 📥 PDF

作者: Israfel Salazar, Manuel Fernández Burda, Shayekh Bin Islam, Arshia Soltani Moakhar, Shivalika Singh, Fabian Farestam, Angelika Romanou, Danylo Boiko, Dipika Khullar, Mike Zhang, Dominik Krzemiński, Jekaterina Novikova, Luísa Shimabucoro, Joseph Marvin Imperial, Rishabh Maheshwary, Sharad Duwal, Alfonso Amayuelas, Swati Rajwal, Jebish Purbey, Ahmed Ruby, Nicholas Popovič, Marek Suppa, Azmine Toushik Wasi, Ram Mohan Rao Kadiyala, Olga Tsymboi, Maksim Kostritsya, Bardia Soltani Moakhar, Gabriel da Costa Merlin, Otávio Ferracioli Coletti, Maral Jabbari Shiviari, MohammadAmin farahani fard, Silvia Fernandez, María Grandury, Dmitry Abulkhanov, Drishti Sharma, Andre Guarnier De Mitri, Leticia Bossatto Marchezi, Setayesh Heydari, Johan Obando-Ceron, Nazar Kohut, Beyza Ermis, Desmond Elliott, Enzo Ferrante, Sara Hooker, Marzieh Fadaee

分类: cs.CL, cs.CV

发布日期: 2025-04-09 (更新: 2025-04-29)

备注: v2: corrected the author list


💡 一句话要点

Kaleidoscope:大规模多语种视觉评估的语内考试基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语种评估 视觉-语言模型 多模态基准 文化包容性 语内测试

📋 核心要点

  1. 现有视觉-语言模型评估主要依赖英语基准,缺乏多语种和文化覆盖,翻译数据集无法捕捉文化细微差别。
  2. Kaleidoscope构建大规模语内多模态基准,覆盖18种语言和14个主题,包含20911道多项选择题,确保语言和文化真实性。
  3. 实验表明,现有VLM在低资源语言和复杂多模态场景中表现不佳,凸显文化包容性评估框架的重要性。

📝 摘要(中文)

视觉-语言模型(VLM)的评估主要依赖于英语基准,在多语种和多文化覆盖方面存在显著差距。虽然多语种基准在规模和语言方面有所扩展,但许多基准依赖于英语数据集的翻译,未能捕捉到文化细微差别。本文提出了Kaleidoscope,作为迄今为止最全面的多语种视觉-语言模型评估考试基准。Kaleidoscope是一个大规模的语内多模态基准,旨在评估VLM在不同语言和视觉输入下的表现。Kaleidoscope涵盖18种语言和14个不同的主题,总共包含20911道多项选择题。通过与全球多元化的研究人员进行开放科学合作构建,Kaleidoscope确保了语言和文化的真实性。我们评估了表现最佳的多语种视觉-语言模型,发现它们在低资源语言和复杂的多模态场景中表现不佳。我们的结果强调了在文化包容性多模态评估框架方面取得进展的必要性。

🔬 方法详解

问题定义:现有视觉-语言模型(VLM)的评估主要集中在英语数据集上,这导致了两个主要问题。首先,对于非英语语言的性能评估不足,无法全面了解VLM的跨语言能力。其次,简单地将英语数据集翻译成其他语言无法捕捉到不同文化背景下的细微差别,导致评估结果可能存在偏差。因此,需要一个更全面、更具文化敏感性的多语种VLM评估基准。

核心思路:Kaleidoscope的核心思路是构建一个大规模、语内的多模态基准,直接使用目标语言创建问题和答案,避免翻译带来的信息损失和文化偏差。通过与来自不同国家和文化背景的研究人员合作,确保数据集的语言和文化真实性。此外,该基准涵盖多个学科,以评估VLM在不同领域的知识理解能力。

技术框架:Kaleidoscope的构建流程主要包括以下几个阶段:1) 确定目标语言和学科领域;2) 招募来自不同语言和文化背景的研究人员;3) 设计多项选择题,确保问题和答案的语言和文化相关性;4) 收集视觉输入,例如图像和图表,与问题相关联;5) 对数据集进行质量控制,确保问题和答案的准确性和一致性。最终,Kaleidoscope数据集包含20911道多项选择题,涵盖18种语言和14个学科。

关键创新:Kaleidoscope最重要的创新点在于其语内(in-language)的构建方式。与以往依赖翻译的多语种基准不同,Kaleidoscope直接使用目标语言创建问题和答案,从而避免了翻译过程中可能引入的偏差和信息损失。这种方法能够更准确地评估VLM在不同语言和文化背景下的真实性能。

关键设计:Kaleidoscope的关键设计包括:1) 多样化的语言选择,涵盖了高资源和低资源语言;2) 多学科覆盖,包括科学、历史、文化等多个领域;3) 多模态输入,包括图像、图表等视觉信息;4) 多项选择题形式,方便模型进行预测和评估;5) 严格的质量控制流程,确保数据集的准确性和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLM在Kaleidoscope基准上,尤其是在低资源语言和复杂多模态场景中表现不佳。例如,在某些低资源语言上的准确率远低于英语,表明现有模型在跨语言泛化能力方面存在不足。这些结果强调了开发更具文化包容性的多模态评估框架的必要性,并为未来的研究方向提供了重要参考。

🎯 应用场景

Kaleidoscope基准的潜在应用领域包括:提升多语种视觉-语言模型的性能,开发更具文化敏感性的AI系统,促进跨语言和跨文化的知识共享。该研究的实际价值在于能够更准确地评估VLM在不同语言和文化背景下的表现,从而推动相关技术的发展。未来,Kaleidoscope可以作为评估和改进多语种VLM的重要工具,促进AI技术在全球范围内的应用。

📄 摘要(原文)

The evaluation of vision-language models (VLMs) has mainly relied on English-language benchmarks, leaving significant gaps in both multilingual and multicultural coverage. While multilingual benchmarks have expanded, both in size and languages, many rely on translations of English datasets, failing to capture cultural nuances. In this work, we propose Kaleidoscope, as the most comprehensive exam benchmark to date for the multilingual evaluation of vision-language models. Kaleidoscope is a large-scale, in-language multimodal benchmark designed to evaluate VLMs across diverse languages and visual inputs. Kaleidoscope covers 18 languages and 14 different subjects, amounting to a total of 20,911 multiple-choice questions. Built through an open science collaboration with a diverse group of researchers worldwide, Kaleidoscope ensures linguistic and cultural authenticity. We evaluate top-performing multilingual vision-language models and find that they perform poorly on low-resource languages and in complex multimodal scenarios. Our results highlight the need for progress on culturally inclusive multimodal evaluation frameworks.