MAC: A Live Benchmark for Multimodal Large Language Models in Scientific Understanding

📄 arXiv: 2508.15802v1 📥 PDF

作者: Mohan Jiang, Jin Gao, Jiahao Zhan, Dequan Wang

分类: cs.CL, cs.AI

发布日期: 2025-08-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出MAC:一个用于评估多模态大语言模型科学理解能力的动态基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 科学理解 动态基准 跨模态推理 知识推理 视觉特征增强 学术封面

📋 核心要点

  1. 现有固定基准难以有效评估多模态大语言模型在高层次科学理解方面的能力,无法跟上快速发展的科学前沿。
  2. 论文提出MAC动态基准,利用顶级科学期刊的图像-文本对,持续更新以适应科学进步和模型发展,更有效地评估模型。
  3. 实验表明,现有MLLM在跨模态科学推理方面存在局限性,论文提出的DAD方法通过扩展视觉特征,显著提升了模型性能。

📝 摘要(中文)

随着多模态大语言模型(MLLM)能力日益增强,固定基准在评估高层次科学理解方面逐渐失效。本文提出了多模态学术封面基准(MAC),这是一个可以随着科学进步和模型发展持续演进的动态基准。MAC利用来自《自然》、《科学》和《细胞》等顶级科学期刊的超过25,000个图像-文本对,挑战MLLM对抽象视觉和文本科学内容进行推理。在最新年度快照MAC-2025上的实验表明,虽然MLLM表现出强大的感知能力,但它们的跨模态科学推理仍然有限。为了弥合这一差距,我们提出DAD,一种轻量级的推理时方法,通过用语言空间推理扩展MLLM视觉特征来增强MLLM,实现了高达11%的性能提升。最后,我们通过更新期刊封面和模型进行管理的实验,突出了MAC的动态特性,展示了其与人类知识前沿保持一致的潜力。我们已在https://github.com/mhjiang0408/MAC_Bench上发布了我们的基准。

🔬 方法详解

问题定义:现有用于评估多模态大语言模型(MLLM)的基准数据集是静态的,无法跟上科学知识快速发展的步伐。这导致这些基准逐渐失去区分MLLM在科学理解方面能力差异的能力。因此,需要一个能够动态更新、与时俱进的基准来更有效地评估MLLM的科学理解能力。

核心思路:论文的核心思路是构建一个“活的”基准数据集,即Multimodal Academic Cover benchmark (MAC)。该基准的数据来源于顶级科学期刊(如Nature, Science, Cell)的封面和摘要,并定期更新,以反映最新的科学进展。通过这种方式,MAC能够持续挑战MLLM,并更准确地评估其科学理解能力。

技术框架:MAC基准的核心是其动态更新机制。它定期从顶级科学期刊抓取新的封面图像和摘要文本,并将其添加到数据集中。此外,论文还提出了一种名为DAD (Dimension Alignment and Deduction) 的推理时方法,用于提升MLLM的性能。DAD通过将视觉特征投影到语言空间,并利用语言模型的推理能力来增强MLLM的跨模态推理能力。整体流程包括数据收集与更新、基准测试与评估、以及DAD推理增强。

关键创新:MAC基准的关键创新在于其“动态”特性。与传统的静态基准不同,MAC能够随着科学知识的进步而不断更新,从而保持其评估的有效性。DAD方法的关键创新在于它利用语言模型的推理能力来增强MLLM的视觉特征,从而提升了跨模态推理的性能。

关键设计:MAC基准的数据来源于顶级科学期刊的封面图像和摘要文本。DAD方法的关键设计在于其维度对齐和演绎推理两个步骤。维度对齐将视觉特征投影到语言空间,而演绎推理则利用语言模型对投影后的特征进行推理。DAD的具体实现细节(如投影矩阵的训练方式、语言模型的选择等)在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MAC-2025基准测试中,现有MLLM的跨模态科学推理能力有限。论文提出的DAD方法在MAC-2025上实现了高达11%的性能提升,证明了其有效性。通过更新期刊封面和模型进行管理的实验,验证了MAC基准的动态特性。

🎯 应用场景

该研究成果可应用于评估和提升多模态大语言模型在科学领域的应用能力,例如辅助科研人员进行文献检索、科学知识发现和科学问题解答。动态基准的构建思路也可推广到其他领域,促进人工智能与各行业的深度融合。

📄 摘要(原文)

As multimodal large language models (MLLMs) grow increasingly capable, fixed benchmarks are gradually losing their effectiveness in evaluating high-level scientific understanding. In this paper, we introduce the Multimodal Academic Cover benchmark (MAC), a live benchmark that could continuously evolve with scientific advancement and model progress. MAC leverages over 25,000 image-text pairs sourced from issues of top-tier scientific journals such as Nature, Science, and Cell, challenging MLLMs to reason across abstract visual and textual scientific content. Experiments on our most recent yearly snapshot, MAC-2025, reveal that while MLLMs demonstrate strong perceptual abilities, their cross-modal scientific reasoning remains limited. To bridge this gap, we propose DAD, a lightweight inference-time approach that enhances MLLMs by extending MLLM visual features with language space reasoning, achieving performance improvements of up to 11%. Finally, we highlight the live nature of MAC through experiments on updating journal covers and models for curation, illustrating its potential to remain aligned with the frontier of human knowledge. We release our benchmark at https://github.com/mhjiang0408/MAC_Bench.