PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

作者: Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Jiaming Ji, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Yaodong Yang, Muhan Zhang, Hua Xing Zhu

分类: cs.CL

发布日期: 2025-04-22 (更新: 2025-05-18)

备注: 34 pages ,12 figures, 7 tables, latest update in 2025/05/18

💡 一句话要点

PHYBench：一个用于全面评估大语言模型物理感知与推理能力的新基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 物理推理 基准测试 表达式编辑距离 数据清洗

📋 核心要点

现有LLM推理能力基准测试存在任务简化、数据污染和评估项缺陷等问题，无法准确评估模型的物理推理能力。
PHYBench通过构建包含500道原创物理题目的基准，并采用系统流程消除缺陷，从而解决数据污染问题。
实验表明，PHYBench能更好地区分不同推理模型，并揭示模型在多步骤推理、鲁棒性和偏好方面的不足，Gemini 2.5 Pro准确率仅为36.9%。

📝 摘要（中文）

当前用于评估大型语言模型（LLM）推理能力的基准测试面临着重大局限：任务过度简化、数据污染和有缺陷的评估项。这些缺陷需要更严格的评估方法。为了解决这些限制，我们推出了PHYBench，一个包含500个原创物理问题的基准，难度范围从高中到物理奥林匹克。PHYBench通过原创内容解决了数据污染问题，并采用系统的管理流程来消除有缺陷的项目。评估表明，与其他基线（如AIME 2024、OlympiadBench和GPQA）相比，PHYBench激活了更多的token，并提供了更强的推理模型区分度。即使是性能最佳的模型Gemini 2.5 Pro，其准确率也仅为36.9%，而人类专家的准确率为61.9%。为了进一步提高评估精度，我们引入了用于数学表达式评估的表达式编辑距离（EED）评分，与二元评分相比，它将样本效率提高了204%。此外，PHYBench有效地引发了多步骤和多条件推理，为检查模型的推理鲁棒性、偏好和缺陷提供了一个平台。基准测试结果和数据集可在https://www.phybench.cn/公开获取。

🔬 方法详解

问题定义：现有的大语言模型推理能力评估基准存在任务过于简化，数据泄露污染，以及评估项目存在缺陷等问题。这些问题导致无法准确评估大语言模型在物理领域的推理能力，阻碍了相关研究的进展。现有方法难以区分不同模型的真实物理推理能力，并且无法有效诊断模型的推理缺陷。

核心思路：PHYBench的核心思路是构建一个高质量、无污染、难度适中的物理问题基准，从而更准确地评估大语言模型在物理领域的推理能力。通过原创题目、系统性的数据清洗流程和更精细的评估指标，PHYBench旨在克服现有基准的局限性，为研究人员提供一个更可靠的评估平台。

技术框架：PHYBench的构建主要包含以下几个阶段：1) 题目设计：设计涵盖高中到物理奥赛难度的500道原创物理题目。2) 数据清洗：采用系统性的流程，包括人工审核和统计分析，以消除题目中的错误和歧义。3) 模型评估：使用不同的LLM模型在PHYBench上进行测试，并采用准确率和表达式编辑距离（EED）等指标进行评估。4) 结果分析：分析模型的推理过程，识别模型的优势和不足，并提供详细的错误分析报告。

关键创新：PHYBench的关键创新点在于：1) 原创性：所有题目均为原创，避免了数据污染问题。2) 系统性：采用系统性的数据清洗流程，确保题目的质量。3) 精细化评估：引入表达式编辑距离（EED）评分，更准确地评估模型在数学表达式方面的能力，相比二元评分提升了204%的样本效率。4) 难度适中：题目难度范围从高中到物理奥赛，能够更好地评估模型的推理能力。

关键设计：PHYBench的关键设计包括：1) 题目难度分布：题目难度分布均匀，涵盖不同的物理概念和技能。2) 表达式编辑距离（EED）评分：EED评分考虑了数学表达式的结构和语义，能够更准确地评估模型的数学能力。EED的计算方法未知，论文中未提供具体公式或算法细节。3) 数据清洗流程：数据清洗流程包括人工审核和统计分析，以确保题目的质量和一致性。具体的人工审核标准和统计分析方法未知。

🖼️ 关键图片

📊 实验亮点

PHYBench评估结果显示，即使是目前性能最佳的Gemini 2.5 Pro模型，在PHYBench上的准确率也仅为36.9%，远低于人类专家的61.9%。与AIME 2024、OlympiadBench和GPQA等基线相比，PHYBench能够更好地激活模型的推理能力，并提供更强的模型区分度。此外，引入的表达式编辑距离（EED）评分将样本效率提高了204%。

🎯 应用场景

PHYBench可应用于评估和提升大语言模型在物理学、工程学等领域的推理能力。通过该基准，研究人员可以更准确地了解模型的优势和不足，从而开发出更强大的物理推理模型。此外，PHYBench还可以用于教育领域，帮助学生更好地理解物理概念和解决物理问题，并辅助物理教学。

📄 摘要（原文）

Current benchmarks for evaluating the reasoning capabilities of Large Language Models (LLMs) face significant limitations: task oversimplification, data contamination, and flawed evaluation items. These deficiencies necessitate more rigorous assessment methods. To address these limitations, we introduce PHYBench, a benchmark of 500 original physics problems ranging from high school to Physics Olympiad difficulty. PHYBench addresses data contamination through original content and employs a systematic curation pipeline to eliminate flawed items. Evaluations show that PHYBench activates more tokens and provides stronger differentiation between reasoning models compared to other baselines like AIME 2024, OlympiadBench and GPQA. Even the best-performing model, Gemini 2.5 Pro, achieves only 36.9% accuracy compared to human experts' 61.9%. To further enhance evaluation precision, we introduce the Expression Edit Distance (EED) Score for mathematical expression assessment, which improves sample efficiency by 204% over binary scoring. Moreover, PHYBench effectively elicits multi-step and multi-condition reasoning, providing a platform for examining models' reasoning robustness, preferences, and deficiencies. The benchmark results and dataset are publicly available at https://www.phybench.cn/.

PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理