JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

📄 arXiv: 2410.17250v2 📥 PDF

作者: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa

分类: cs.CL, cs.AI, cs.CV

发布日期: 2024-10-22 (更新: 2025-03-19)

备注: Accepted at NAACL 2025. Project page: https://mmmu-japanese-benchmark.github.io/JMMMU/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

JMMMU:面向文化感知的日语多模态理解大规模基准评测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态理解 日语基准 文化感知 大型语言模型 基准评测

📋 核心要点

  1. 现有LMMs在非英语,特别是日语等文化背景下,缺乏足够的评估基准,限制了其在该语言环境下的发展。
  2. JMMMU基准包含文化无关和文化特定两个子集,分别评估LMMs的语言能力和文化理解能力。
  3. 实验表明,LMMs在日语文化特定任务上的表现不佳,揭示了其对日本文化理解的不足,以及语言理解的局限性。

📝 摘要(中文)

为了加速非英语语言的大型多模态模型(LMMs)的研究,本文提出了JMMMU(Japanese MMMU),这是第一个大规模日语基准,旨在评估LMMs在基于日本文化背景的专家级任务上的表现。为了促进全面的文化感知评估,JMMMU包含两个互补的子集:(i)文化无关(CA)子集,其中选择与文化无关的主题(例如,数学)并将其翻译成日语,从而可以与其英语对应物MMMU进行一对一的比较;(ii)文化特定(CS)子集,包含反映日本文化背景的新创建的主题。使用CA子集,我们观察到许多LMMs在日语评估中的性能下降,这完全归因于语言差异。使用CS子集,我们揭示了它们对日本文化理解的不足。此外,通过结合两个子集,我们发现一些LMMs在CA子集上表现良好,但在CS子集上表现不佳,这暴露了对日语的肤浅理解,缺乏文化理解的深度。我们希望这项工作不仅有助于提高LMMs在日语中的性能,而且还可以作为创建高质量、文化多样化的多语言LMM开发基准的指南。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)在日语环境下的评估问题,特别是缺乏考虑到日本文化背景的专家级任务基准。现有方法主要使用翻译后的英文数据集,无法有效评估LMMs对日语文化细微之处的理解,导致模型在实际应用中表现不佳。

核心思路:论文的核心思路是构建一个包含文化无关(CA)和文化特定(CS)两个子集的日语多模态理解基准JMMMU。CA子集用于评估LMMs的语言能力,而CS子集则专注于评估其对日本文化的理解。通过对比两个子集上的表现,可以更全面地了解LMMs在日语环境下的优缺点。

技术框架:JMMMU基准的构建流程包括以下几个主要阶段:1) 主题选择:选择涵盖多个学科领域的专家级任务,包括文化无关和文化特定两类。2) 数据收集与标注:收集相关数据,并进行人工标注,确保数据的质量和准确性。3) 基准构建:将数据整理成统一的格式,并提供评估工具和指标。4) 模型评估:使用JMMMU基准评估现有LMMs的性能,并分析结果。

关键创新:JMMMU的关键创新在于其文化特定(CS)子集的构建,该子集包含反映日本文化背景的新创建的主题,例如日本历史、文学、艺术等。这使得JMMMU能够更全面地评估LMMs对日语文化的理解,而不仅仅是语言能力。

关键设计:JMMMU的CA子集通过将英文MMMU数据集翻译成日语来实现,确保了与英文数据集的一致性,便于进行跨语言比较。CS子集则需要人工设计和标注,以确保其能够准确反映日本文化背景。评估指标包括准确率、召回率等,用于衡量LMMs在不同任务上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,许多LMMs在JMMMU的CA子集上表现出性能下降,这归因于语言差异。更重要的是,LMMs在CS子集上的表现明显低于CA子集,揭示了它们对日本文化理解的不足。一些LMMs在CA子集上表现良好,但在CS子集上表现不佳,表明它们对日语的理解较为肤浅,缺乏文化深度。

🎯 应用场景

JMMMU基准的潜在应用领域包括:提升日语LMMs的性能,改善日语用户体验,促进多语言LMMs的发展,以及为其他语言和文化创建高质量的评估基准。该研究的实际价值在于帮助开发者更好地了解LMMs在日语环境下的优缺点,从而开发出更适合日语用户的LMMs。未来影响在于推动多语言LMMs的发展,促进不同文化之间的交流和理解。

📄 摘要(原文)

Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.