ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems

📄 arXiv: 2507.04766v1 📥 PDF

作者: Yiming Zhang, Yingfan Ma, Yanmei Gu, Zhengkai Yang, Yihong Zhuang, Feng Wang, Zenan Huang, Yuanyuan Wang, Chao Huang, Bowen Song, Cheng Lin, Junbo Zhao

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-07-07


💡 一句话要点

ABench-Physics:通过高难度动态物理问题评估LLM的物理推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 物理推理 基准测试 动态评估 科学推理

📋 核心要点

  1. 现有物理学基准测试难度不足,形式单一,无法有效评估LLM的物理建模能力。
  2. 提出ABench-Physics基准,包含静态高难度问题集Phy_A和动态可变问题集Phy_B,全面评估LLM的物理推理能力。
  3. 实验结果表明,现有LLM在物理推理方面存在显著差距,尤其是在动态问题上的泛化能力不足。

📝 摘要(中文)

大型语言模型(LLM)在数学和编程等领域表现出令人印象深刻的性能,但它们在物理学方面的能力仍未被充分探索和理解。物理学提出了独特的挑战,不仅需要精确的计算,还需要深刻的概念理解和物理建模技能。现有的基准测试通常因难度有限、多项选择题形式以及无法捕捉物理建模能力的静态评估设置而不足。本文介绍了ABench-Physics,这是一个旨在严格评估LLM的物理推理和泛化能力的新基准。ABench-Physics由两部分组成:Phy_A,一个包含400个研究生或奥林匹克级别问题的静态集合;以及Phy_B,一个包含100个问题的动态子集,配备自动变异引擎,用于测试模型在变化条件下的鲁棒性。所有问题都需要精确的数值答案,并具有严格的格式和容差约束。我们对几种最先进的LLM的评估揭示了巨大的性能差距,突出了物理推理方面的持续局限性,尤其是在推广到动态变体方面。ABench-Physics为推进LLM中的科学推理提供了一个具有挑战性和诊断性的框架。

🔬 方法详解

问题定义:论文旨在解决现有LLM在物理推理能力评估方面存在的不足。现有基准测试难度较低,多为选择题形式,难以全面评估LLM对物理概念的理解和物理建模能力。此外,静态的测试环境也无法考察LLM在动态变化条件下的泛化能力。

核心思路:论文的核心思路是构建一个更具挑战性和诊断性的物理推理基准,即ABench-Physics。该基准包含高难度的物理问题,并引入动态变化机制,以更全面地评估LLM的物理推理和泛化能力。通过这种方式,可以更准确地了解LLM在物理学领域的优势和局限性,并推动相关研究的进展。

技术框架:ABench-Physics基准主要包含两个部分:Phy_A和Phy_B。Phy_A是一个静态问题集,包含400个研究生或奥林匹克级别的物理问题,旨在评估LLM在静态环境下的物理推理能力。Phy_B是一个动态问题集,包含100个问题,并配备了一个自动变异引擎。该引擎可以对问题中的参数、条件等进行修改,生成不同的变体,从而评估LLM在动态变化条件下的鲁棒性和泛化能力。所有问题都需要LLM给出精确的数值答案,并对答案的格式和容差范围有严格的要求。

关键创新:ABench-Physics的关键创新在于其高难度和动态性。与现有基准相比,ABench-Physics的问题难度更高,更接近实际科研场景。同时,动态问题集的设计可以更全面地评估LLM在变化条件下的泛化能力,这对于实际应用至关重要。此外,严格的答案格式和容差要求也提高了评估的准确性和可靠性。

关键设计:Phy_B中的自动变异引擎是关键设计之一。该引擎通过随机修改问题中的参数、初始条件、约束条件等,生成不同的问题变体。变异的幅度需要控制在合理的范围内,以保证问题的物理意义和难度。此外,答案的格式和容差范围也需要仔细设计,以避免因格式错误或微小误差而导致评估结果的偏差。具体参数设置和变异策略在论文中可能未详细公开,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,现有最先进的LLM在ABench-Physics上的表现远低于人类专家水平,尤其是在Phy_B动态问题集上的泛化能力较差。这表明LLM在物理推理方面仍存在很大的提升空间,ABench-Physics可以作为一个有效的工具来诊断和改进LLM的物理推理能力。

🎯 应用场景

ABench-Physics可用于评估和提升LLM在科学领域的推理能力,特别是在物理学相关任务中。该基准可以帮助研究人员更好地了解LLM的优势和局限性,并推动LLM在科学发现、工程设计和教育等领域的应用。例如,可以利用LLM辅助物理问题的求解、物理实验的设计和物理知识的教学。

📄 摘要(原文)

Large Language Models (LLMs) have shown impressive performance in domains such as mathematics and programming, yet their capabilities in physics remain underexplored and poorly understood. Physics poses unique challenges that demand not only precise computation but also deep conceptual understanding and physical modeling skills. Existing benchmarks often fall short due to limited difficulty, multiple-choice formats, and static evaluation settings that fail to capture physical modeling ability. In this paper, we introduce ABench-Physics, a novel benchmark designed to rigorously evaluate LLMs' physical reasoning and generalization capabilities. ABench-Physics consists of two components: Phy_A, a static set of 400 graduate- or Olympiad-level problems; and Phy_B, a dynamic subset of 100 problems equipped with an automatic variation engine to test model robustness across changing conditions. All questions require precise numerical answers, with strict formatting and tolerance constraints. Our evaluation of several state-of-the-art LLMs reveals substantial performance gaps, highlighting persistent limitations in physical reasoning, especially in generalization to dynamic variants. ABench-Physics provides a challenging and diagnostic framework for advancing scientific reasoning in LLMs.