PISA-Bench: The PISA Index as a Multilingual and Multimodal Metric for the Evaluation of Vision-Language Models

📄 arXiv: 2510.24792v2 📥 PDF

作者: Patrick Haller, Fabio Barth, Jonas Golde, Georg Rehm, Alan Akbik

分类: cs.CV, cs.AI

发布日期: 2025-10-27 (更新: 2025-11-12)

备注: 8 pages, 11 tables and figures


💡 一句话要点

PISA-Bench:一个多语言多模态基准,用于评估视觉-语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 多模态学习 多语言 基准测试 教育评估 推理能力 PISA测试

📋 核心要点

  1. 现有视觉-语言模型基准测试缺乏高质量、人工验证的多语言数据,限制了模型在真实场景下的泛化能力。
  2. PISA-Bench利用专家设计的PISA测试题,构建了一个包含六种语言的平行语料库,涵盖多种问题类型和图像。
  3. 实验表明,现有视觉-语言模型在PISA-Bench上表现不佳,尤其是在非英语语种和空间几何推理方面,揭示了模型的局限性。

📝 摘要(中文)

视觉-语言模型(VLMs)在多模态推理方面取得了显著进展。然而,现有的基准测试在高质量、人工验证的示例方面仍然有限。许多当前的数据集依赖于大型语言模型(LLMs)合成生成的内容。此外,大多数数据集仅限于英语,因为翻译样本的手动质量保证既耗时又昂贵。为了填补这一空白,我们推出了PISA-Bench,这是一个多语言基准,源自专家创建的PISA测试的英语示例,PISA测试是一个统一的框架,用于评估八十多个国家/地区的学生能力。每个示例都包含人工提取的说明、问题、答案选项和图像,并丰富了问题类型类别,并且已从英语翻译成其他五种语言(西班牙语、德语、中文、法语和意大利语),从而形成了一个涵盖六种语言的完全平行的语料库。我们评估了PISA-Bench上最先进的视觉-语言模型,发现尤其是小型模型(<20B参数)未能获得高测试分数。我们还发现非英语拆分上的性能显着下降,以及当模型执行空间和几何推理任务时的高错误率。通过发布数据集和评估框架,我们为推进多语言多模态推理研究提供了一种资源。

🔬 方法详解

问题定义:现有视觉-语言模型(VLM)的评估基准主要存在两个痛点:一是数据质量不高,依赖LLM合成数据,缺乏人工验证;二是语言单一,主要集中在英语,缺乏多语言支持。这限制了VLM在真实世界多语言环境下的应用和评估。

核心思路:PISA-Bench的核心思路是利用现有的高质量、多语言的PISA(国际学生评估项目)测试题作为基准数据集。PISA测试题由专家设计,经过人工验证,并且已经翻译成多种语言,可以有效解决现有基准数据集的质量和语言多样性问题。

技术框架:PISA-Bench的构建流程主要包括以下几个步骤:1)从PISA测试题中提取包含图像、问题、答案选项和说明的样本;2)对样本进行标注,包括问题类型等信息;3)将英文样本翻译成五种其他语言(西班牙语、德语、中文、法语和意大利语),形成一个完全平行的六种语言语料库;4)构建评估框架,用于评估VLM在PISA-Bench上的性能。

关键创新:PISA-Bench的关键创新在于其数据来源和多语言特性。它利用了高质量的PISA测试题,避免了依赖LLM生成数据带来的质量问题。同时,它提供了六种语言的平行语料库,可以用于评估VLM在多语言环境下的性能。这是现有VLM基准数据集所缺乏的。

关键设计:PISA-Bench的关键设计包括:1)问题类型的标注,例如空间推理、几何推理等,可以用于分析VLM在不同类型问题上的表现;2)多语言平行语料库的构建,保证了不同语言版本的问题在语义上的一致性;3)评估指标的选择,例如准确率等,用于衡量VLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在PISA-Bench上的实验结果表明,现有视觉-语言模型在非英语语种上的性能显著下降,小型模型(<20B参数)表现尤其不佳。此外,模型在空间和几何推理任务中错误率较高,揭示了现有模型在复杂推理方面的局限性。这些结果为未来的研究方向提供了重要参考。

🎯 应用场景

PISA-Bench可用于评估和提升视觉-语言模型在多语言环境下的推理能力,尤其是在教育、智能助手等领域。高质量的多语言数据有助于开发更智能、更可靠的跨文化AI系统,促进全球范围内的知识共享和教育公平。

📄 摘要(原文)

Vision-language models (VLMs) have demonstrated remarkable progress in multimodal reasoning. However, existing benchmarks remain limited in terms of high-quality, human-verified examples. Many current datasets rely on synthetically generated content by large language models (LLMs). Furthermore, most datasets are limited to English, as manual quality assurance of translated samples is time-consuming and costly. To fill this gap, we introduce PISA-Bench, a multilingual benchmark derived from English examples of the expert-created PISA tests, a unified framework for the assessment of student competencies in over eighty countries. Each example consists of human-extracted instructions, questions, answer options, and images, enriched with question type categories, and has been translated from English into five additional languages (Spanish, German, Chinese, French, and Italian), resulting in a fully parallel corpus covering six languages. We evaluate state-of-the-art vision-language models on PISA-Bench and find that especially small models (<20B parameters) fail to achieve high test scores. We further find substantial performance degradation on non-English splits as well as high error-rates when models are tasked with spatial and geometric reasoning. By releasing the dataset and evaluation framework, we provide a resource for advancing research on multilingual multimodal reasoning.