Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability

作者: Kyosuke Takami, Yuka Tateisi, Satoshi Sekine, Yusuke Miyao

分类: cs.CL

发布日期: 2026-05-12

🔗 代码/项目: GITHUB

💡 一句话要点

提出Gakucho基准，用于评估多模态大语言模型在真实日本K-12学业评估中的表现。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 教育评估 大语言模型 基准数据集 日本教育 学业评估 视觉推理

📋 核心要点

现有基准缺乏基于日本K-12学业评估的多模态数据集，难以评估模型在真实教育场景下的表现。
论文构建了包含90万学生作答分布的日本全国学力评估数据集，保留了真实考试布局和教育文本。
通过基准测试，揭示了现有MLLM在不同科目上的表现差异，以及对视觉推理需求的敏感性。

📝 摘要（中文）

本文提出了一个多模态数据集，该数据集构建自日本全国学力学习状况调查，包含科学、数学和日语科目的官方发布的中学试题。与基于合成或人工数据的现有基准不同，该数据集保留了真实的考试布局、图表和日语教育文本，以及全国范围内的学生作答分布（N ≈ 900,000）。这些特征使得在统一的评估框架下，可以直接比较人类和模型的表现。论文使用精确匹配准确率和字符级F1值来评估开放式回答，观察到不同科目之间的显著差异以及对视觉推理需求的强烈敏感性。人工评估和LLM-as-judge分析进一步评估了自动评分的可靠性。该数据集建立了一个可复现的、基于人类的多模态教育推理基准，并支持未来在真实评估环境中对评估、反馈生成和可解释AI的研究。数据集可在https://github.com/KyosukeTakami/gakucho-benchmark获取。

🔬 方法详解

问题定义：现有的大部分多模态大语言模型（MLLM）的评测基准，要么是合成数据，要么是经过人工筛选的数据。这些数据难以反映真实教育场景的复杂性和挑战。特别是在日本K-12教育领域，缺乏高质量的、基于真实学业评估的多模态数据集，使得评估MLLM在解决日本教育问题上的能力变得困难。现有方法无法直接比较人类和模型的表现，也难以支持对模型反馈生成和可解释性的研究。

核心思路：论文的核心思路是构建一个基于真实日本全国学力学习状况调查（National Assessment of Academic Ability）的多模态数据集，该数据集包含官方发布的中学试题，涵盖科学、数学和日语科目。通过保留真实的考试布局、图表和日语教育文本，以及大规模的学生作答分布，使得可以在统一的评估框架下直接比较人类和模型的表现。这种设计能够更真实地反映MLLM在解决实际教育问题上的能力。

技术框架：该研究的技术框架主要包括以下几个阶段：1）数据收集与整理：从日本全国学力学习状况调查中收集官方发布的中学试题，包括科学、数学和日语科目。2）数据标注与处理：对试题进行标注，并处理成适合MLLM输入的多模态数据格式，包括文本、图像等。3）基准测试：使用精确匹配准确率和字符级F1值等指标，对现有的MLLM进行基准测试，评估其在不同科目上的表现。4）人工评估与分析：进行人工评估，并使用LLM-as-judge方法分析自动评分的可靠性。

关键创新：该论文的关键创新在于构建了一个基于真实学业评估的多模态数据集，该数据集具有以下特点：1）真实性：数据集保留了真实的考试布局、图表和日语教育文本，更贴近实际教育场景。2）大规模：数据集包含全国范围内的学生作答分布（N ≈ 900,000），具有较高的统计意义。3）可复现性：数据集的构建过程是可复现的，方便其他研究者进行验证和扩展。4）综合性：数据集涵盖了科学、数学和日语等多个科目，可以对MLLM进行更全面的评估。

关键设计：在数据处理方面，论文可能需要对图像进行预处理，例如调整大小、增强对比度等，以提高MLLM的识别准确率。在模型评估方面，论文使用了精确匹配准确率和字符级F1值等指标，这些指标可以较为准确地反映MLLM在开放式回答上的表现。此外，论文还进行了人工评估和LLM-as-judge分析，以评估自动评分的可靠性。具体的参数设置、损失函数、网络结构等技术细节取决于所使用的MLLM。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有MLLM在不同科目上的表现存在显著差异，并且对视觉推理需求非常敏感。例如，在需要较强视觉推理能力的题目上，MLLM的表现明显下降。人工评估和LLM-as-judge分析验证了自动评分的可靠性，为后续研究提供了保障。该基准的建立为未来多模态教育推理研究奠定了基础。

🎯 应用场景

该研究成果可应用于教育领域，例如开发智能辅导系统，自动评估学生作业，生成个性化学习反馈，以及提高教育资源的可访问性。通过分析MLLM在教育评估中的表现，可以促进可解释AI在教育领域的应用，并为教育政策的制定提供参考。

📄 摘要（原文）

Authentic school examinations provide a high-validity test bed for evaluating multimodal large language models (MLLMs), yet benchmarks grounded in Japanese K-12 assessments remain scarce. We present a multimodal dataset constructed from Japan's National Assessment of Academic Ability, comprising officially released middle-school items in Science, Mathematics, and Japanese Language. Unlike existing benchmarks based on synthetic or curated data, our dataset preserves real exam layouts, diagrams, and Japanese educational text, together with nationwide aggregated student response distributions (N $\approx$ 900{,}000). These features enable direct comparison between human and model performance under a unified evaluation framework. We benchmark recent multimodal LLMs using exact-match accuracy and character-level F1 for open-ended responses, observing substantial variation across subjects and strong sensitivity to visual reasoning demands. Human evaluation and LLM-as-judge analyses further assess the reliability of automatic scoring. Our dataset establishes a reproducible, human-grounded benchmark for multimodal educational reasoning and supports future research on evaluation, feedback generation, and explainable AI in authentic assessment contexts. Our dataset is available at: https://github.com/KyosukeTakami/gakucho-benchmark

Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理