LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

作者: Xiaohan Wang, Mingze Yin, Yilin Zhao, Gang Liu, Dian Li

分类: cs.AI, cs.MM

发布日期: 2026-05-26

💡 一句话要点

提出LiveK12Bench，评估大型多模态模型在真实高中考试场景下的推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 基准测试 K-12教育 推理能力 真实考试 自动化评估 数据泄露

📋 核心要点

现有K-12推理基准缺乏真实性，存在数据污染、模态单一、学科局限等问题，难以有效评估LMMs的实际能力。
LiveK12Bench通过自动化流程持续更新试题，模拟真实考试环境，并采用“模拟考试”评估方案，考察LMMs的端到端推理能力。
实验表明，LMMs在LiveK12Bench上的性能显著下降，揭示了其在复杂视觉布局和推理效率方面的不足，与实际教育应用存在差距。

📝 摘要（中文）

本文提出了LiveK12Bench，一个动态、全面、多学科的基准测试，旨在评估大型多模态模型（LMMs）在真实考试场景中的推理能力。该基准包含2000多个来自最新真实考试试卷的验证问题，涵盖数学、物理、化学和生物学科，并设计为可随时间增长。该框架具有以下核心创新：1) 采用自动化流程，持续摄取和解析最新的考试试卷，以减轻数据泄露；2) 提出了一种新颖的“模拟考试”评估方案，该方案评估模型自主完成端到端考试的能力，并具有准确高效的推理路径。对12个LMMs的广泛实验表明，在考试现实约束下，高级模型的性能会大幅下降：当同时评估过程严谨性和效率时，GPT-5的得分从79分降至53分（满分100分）。研究结果揭示了关键的脆弱性，例如对复杂视觉布局的敏感性，突出了理想化推理能力与真正的教育准备之间的差距。代码和数据集均已公开。

🔬 方法详解

问题定义：现有的大型多模态模型（LMMs）在K-12推理任务中表现出令人印象深刻的性能，但在真实考试场景中，由于数据集的静态性、数据污染以及模态、学科和评估标准的局限性，现有基准无法准确评估LMMs的实际能力。因此，需要一个更真实、动态和全面的基准来评估LMMs在真实考试环境中的推理能力。

核心思路：LiveK12Bench的核心思路是构建一个动态更新、涵盖多学科、模拟真实考试环境的基准测试。通过自动化流程持续摄取和解析最新的考试试卷，减轻数据泄露的风险。同时，采用“模拟考试”评估方案，考察LMMs自主完成端到端考试的能力，并评估其推理路径的准确性和效率。

技术框架：LiveK12Bench的整体框架包含以下几个主要模块：1) 试题收集模块：自动化地从最新的真实考试试卷中收集试题；2) 试题解析模块：解析试题，提取文本、图像等信息；3) 试题验证模块：验证试题的正确性，确保数据集的质量；4) 模拟考试模块：模拟真实考试环境，评估LMMs的端到端推理能力；5) 评估模块：评估LMMs的性能，包括准确率、效率等。

关键创新：LiveK12Bench的关键创新在于：1) 自动化试题更新流程，有效避免数据泄露；2) “模拟考试”评估方案，更真实地反映了LMMs在真实考试环境中的表现；3) 多学科覆盖，更全面地评估了LMMs的推理能力。与现有方法相比，LiveK12Bench更具真实性、动态性和全面性。

关键设计：LiveK12Bench的关键设计包括：1) 自动化试题更新流程的具体实现，包括网页抓取、文本提取、图像识别等技术；2) “模拟考试”评估方案的细节，包括考试时间、评分标准等；3) 多学科试题的选取标准，确保各学科的覆盖范围和难度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LMMs在LiveK12Bench上的性能显著下降。例如，GPT-5在同时评估过程严谨性和效率时，得分从79分降至53分（满分100分）。这表明，LMMs在真实考试环境中的推理能力与理想化的推理能力之间存在显著差距。实验还揭示了LMMs对复杂视觉布局的敏感性，以及在推理效率方面的不足。

🎯 应用场景

LiveK12Bench可用于评估和改进LMMs在教育领域的应用，例如智能辅导系统、自动阅卷系统等。通过该基准，可以更好地了解LMMs在真实考试环境中的表现，从而开发出更有效、更可靠的教育应用。此外，该基准还可以促进LMMs在其他领域的应用，例如知识问答、信息检索等。

📄 摘要（原文）

Advanced Large Multimodal Models (LMMs) have demonstrated impressive performance in K-12 reasoning tasks, exhibiting great promise as intelligent tutors. Realizing this potential requires models to navigate real-world examinations effectively, yet most existing benchmarks fail to capture the complexity of authentic testing environments. Specifically, most datasets are static, prone to data contamination, and are often confined to restricted modalities, disciplines, and evaluation criteria. To address these issues, we introduce LiveK12Bench, a dynamic, holistic, multi-disciplinary benchmark designed to evaluate the reasoning abilities of LMMs in realistic examination scenarios. LiveK12Bench comprises 2K+ verified questions spanning Mathematics, Physics, Chemistry, and Biology, sourced from the latest real-world exam papers and designed to grow over time. Our framework features several core innovations: 1) featuring an automated pipeline that continuously ingests and parses the latest examination papers to mitigate data leakage; and 2) proposing a novel `Mock Exam' evaluation scheme, which assesses the ability to complete end-to-end exams autonomously with accurate and efficient reasoning paths. Extensive experiments on 12 LMMs reveal that advanced models suffer substantial performance degradation under exam-realistic constraints: GPT-5's score drops from 79 to 53 (out of 100) when process rigor and efficiency are jointly evaluated. Our findings expose critical vulnerabilities, such as sensitivity to complex visual layouts, highlighting the gap between idealized reasoning capabilities and true educational readiness. Both code and dataset are publicly available.

LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理