M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models

📄 arXiv: 2405.15638v2 📥 PDF

作者: Hongyu Wang, Jiayu Xu, Senwei Xie, Ruiping Wang, Jialin Li, Zhaojie Xie, Bin Zhang, Chuyan Xiong, Xilin Chen

分类: cs.CV, cs.CL

发布日期: 2024-05-24 (更新: 2025-04-25)

备注: Work in progress


💡 一句话要点

M4U:一个用于评估大型多模态模型多语言理解和推理能力的新基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言多模态 大型多模态模型 基准测试 理解与推理 跨语言评估

📋 核心要点

  1. 现有基准测试无法有效区分多语言多模态模型的性能,甚至无视觉能力的模型也能获得高分。
  2. M4U基准旨在评估模型在多学科、多语言环境下的多模态理解和推理能力,包含10k样本。
  3. 实验表明,即使是GPT-4o在M4U上的平均准确率也仅为47.6%,且模型存在显著的语言偏好。

📝 摘要(中文)

多语言能力是大型多模态模型的重要组成部分,因为它们通常部署在不同的国家和语言环境中。然而,现有的多语言多模态推理基准难以区分不同性能的模型;甚至没有视觉能力的语言模型也能轻松获得高分。这使得对领先的多语言多模态模型的全面评估在很大程度上未被探索。本文提出了M4U,这是一个新颖且具有挑战性的基准,用于评估跨学科的多语言多模态理解和推理能力。M4U包含10k个样本,涵盖科学、工程和医疗保健领域6个语种的64个学科。使用M4U,我们对领先的大型多模态模型(LMM)和带有外部工具的大型语言模型(LLM)进行了广泛的评估。评估结果表明,最先进的模型GPT-4o在M4U上的平均准确率仅为47.6%。此外,我们观察到领先的LMM表现出显著的语言偏好。我们的深入分析表明,包括GPT-4o在内的领先LMM难以使用视觉和文本上下文中存在的多语言信息进行推理。具体来说,当使用跨语言多模态问题提示时,它们的性能会下降。我们的代码和数据集已公开。

🔬 方法详解

问题定义:现有的大型多模态模型在多语言环境下的理解和推理能力评估不足。现有的基准测试区分度不高,无法有效衡量模型在复杂场景下的真实性能。模型在处理跨语言信息时可能存在偏差和性能下降的问题。

核心思路:设计一个更具挑战性和综合性的多语言多模态基准测试,涵盖更广泛的学科和语言,并侧重于评估模型在跨语言环境下的推理能力。通过分析模型在不同语言和模态下的表现,揭示其潜在的局限性。

技术框架:M4U基准包含10k个样本,覆盖科学、工程和医疗保健领域6个语种的64个学科。每个样本包含图像和文本信息,并设计了需要多模态理解和推理的问题。评估过程包括使用不同的提示策略,并分析模型在不同语言和学科上的表现。

关键创新:M4U基准的创新之处在于其多学科、多语言和多模态的综合性。它不仅评估模型在单一语言和模态下的表现,更侧重于评估模型在跨语言和跨模态环境下的推理能力。此外,M4U还包含了更广泛的学科,使其更具代表性和挑战性。

关键设计:M4U的数据集构建过程包括从多个来源收集图像和文本信息,并进行人工标注和验证。问题的设计需要模型具备多模态理解和推理能力,例如需要结合图像和文本信息进行判断、推理和计算。评估指标包括准确率、召回率和F1值等,用于全面评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是目前最先进的模型GPT-4o在M4U上的平均准确率也仅为47.6%,这表明现有模型在多语言多模态理解和推理方面仍有很大的提升空间。此外,实验还发现领先的LMM表现出显著的语言偏好,并且在处理跨语言多模态问题时性能会下降。这些发现为未来的研究提供了重要的方向。

🎯 应用场景

M4U基准的潜在应用领域包括:开发更强大的多语言多模态模型,用于跨文化交流、机器翻译、智能客服、教育和医疗保健等领域。该基准可以帮助研究人员更好地理解和评估模型的性能,并指导模型的改进和优化。此外,M4U还可以用于评估模型在不同语言和文化背景下的公平性和鲁棒性。

📄 摘要(原文)

Multilingual capability is an essential aspect for large multimodal models, since they are usually deployed across various countries and languages. However, most existing benchmarks for multilingual multimodal reasoning struggle to differentiate between models of varying performance; even language models without visual capabilities can easily achieve high scores. This leaves a comprehensive evaluation of leading multilingual multimodal models largely unexplored. In this work, we introduce M4U, a novel and challenging benchmark for assessing the capability of multi-discipline multilingual multimodal understanding and reasoning. M4U contains 10k samples covering 64 disciplines across 16 subfields in Science, Engineering, and Healthcare in six languages. Using M4U, we conduct extensive evaluations of leading Large Multimodal Models (LMMs) and Large Language Models (LLMs) with external tools. The evaluation results demonstrate that the state-of-the-art model, GPT-4o, achieves only 47.6% average accuracy on M4U. Additionally, we observe that the leading LMMs exhibit significant language preferences. Our in-depth analysis indicates that leading LMMs, including GPT-4o, struggle to perform reasoning using multilingual information present in both visual and textual context. Specifically, they suffer performance degradation when prompted with cross-lingual multimodal questions. Our code and dataset is public available.