PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models
作者: Lintao Wang, Encheng Su, Jiaqi Liu, Pengze Li, Peng Xia, Jiabei Xiao, Wenlong Zhang, Xinnan Dai, Xi Chen, Yuan Meng, Mingyu Ding, Lei Bai, Wanli Ouyang, Shixiang Tang, Aoran Wang, Xinzhu Ma
分类: cs.AI
发布日期: 2025-06-21 (更新: 2025-06-27)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出PhysUniBench:一个本科生水平的物理推理多模态模型评测基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 物理推理 多模态学习 基准测试 大型语言模型 AI for Science
📋 核心要点
- 现有评估方法在捕捉本科生水平物理的广度和复杂性方面存在局限性,需要更严格的评估。
- PhysUniBench通过构建大规模多模态基准,系统评估和提升MLLM在物理问题上的推理能力。
- 实验表明,现有SOTA模型在PhysUniBench上表现不佳,突显了模型在高级物理推理方面的不足。
📝 摘要(中文)
本文提出了PhysUniBench,一个大规模多模态基准,旨在评估和提升多模态大型语言模型(MLLM)在本科生水平物理问题上的推理能力。PhysUniBench包含3304个物理问题,涵盖8个主要的物理学子学科,每个问题都配有一张图。该基准包括开放式和多项选择题,通过迭代的模型在环过程中进行系统地整理和难度分级。基准的构建涉及严格的多阶段过程,包括多次推出、专家级评估、自动过滤容易解决的问题以及细致的五级难度分级系统。实验结果表明,当前最先进的模型在物理推理方面面临重大挑战,例如GPT-4o mini在PhysUniBench上的准确率仅为34.2%。PhysUniBench旨在推动AI for Science的进步,鼓励开发具有更强物理推理、问题解决能力和多模态理解的模型。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)在本科生水平物理问题推理能力评估不足的问题。现有方法难以全面评估模型对物理概念理解、数学推理和物理图表解释的综合能力,缺乏细粒度的难度分级和系统性的问题覆盖。
核心思路:核心思路是构建一个大规模、多模态的物理推理基准PhysUniBench,该基准包含多样化的物理问题,并配有相应的图表,能够全面评估MLLM在不同难度级别上的物理推理能力。通过迭代的模型在环过程,确保基准的质量和难度分布。
技术框架:PhysUniBench的构建流程包括以下几个主要阶段:1) 问题收集:收集涵盖8个主要物理子学科的3304个问题,每个问题配有一张图。2) 难度分级:采用五级难度分级系统,通过专家评估和模型表现进行迭代调整。3) 问题过滤:自动过滤容易解决的问题,确保基准的挑战性。4) 基准发布:提供开放式和多项选择题,以及相应的评估脚本。
关键创新:PhysUniBench的关键创新在于其大规模、多模态和细粒度的难度分级。与现有基准相比,PhysUniBench更全面地覆盖了本科生水平的物理知识,并提供了更细致的难度评估,能够更准确地反映MLLM在物理推理方面的能力。
关键设计:难度分级采用五级体系,具体标准未知。问题筛选采用自动化方法,具体算法未知。基准的评估指标为准确率,用于衡量模型在多项选择题上的表现。开放式问题的评估方法未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前最先进的MLLM在PhysUniBench上表现不佳,例如GPT-4o mini的准确率仅为34.2%。这表明现有模型在高级物理推理、多步骤问题解决和精确图表解释方面存在显著不足,突显了PhysUniBench的价值和意义。
🎯 应用场景
PhysUniBench可应用于评估和提升AI模型在科学领域的推理能力,尤其是在物理学教育和研究中。该基准能够促进开发更智能的物理学习辅助工具,并推动AI在科学发现中的应用,例如自动化实验设计和数据分析。
📄 摘要(原文)
Physics problem-solving is a challenging domain for large AI models, requiring integration of conceptual understanding, mathematical reasoning, and interpretation of physical diagrams. Current evaluation methodologies show notable limitations in capturing the breadth and complexity of undergraduate-level physics, underscoring the need for more rigorous assessments. To this end, we present PhysUniBench, a large-scale multimodal benchmark designed to evaluate and improve the reasoning capabilities of multimodal large language models (MLLMs) specifically on undergraduate-level physics problems. PhysUniBench consists of 3,304 physics questions spanning 8 major sub-disciplines of physics, each accompanied by one visual diagrams. The benchmark includes both open-ended and multiple-choice questions, systematically curated and difficulty-rated through an iterative model-in-the-loop process. The benchmark's construction involved a rigorous multi-stage process, including multiple roll-outs, expert-level evaluation, automated filtering of easily solved problems, and a nuanced difficulty grading system with five levels. Through extensive experiments, we observe that current state-of-the-art models encounter substantial challenges in physics reasoning. For example, GPT-4o mini achieves only about 34.2% accuracy in the proposed PhysUniBench. These results highlight that current MLLMs struggle with advanced physics reasoning, especially on multi-step problems and those requiring precise diagram interpretation. By providing a broad and rigorous assessment tool, PhysUniBench aims to drive progress in AI for Science, encouraging the development of models with stronger physical reasoning, problem-solving skills, and multimodal understanding. The benchmark and evaluation scripts are available at https://prismax-team.github.io/PhysUniBenchmark/.