FeynmanBench: Benchmarking Multimodal LLMs on Diagrammatic Physics Reasoning

📄 arXiv: 2604.03893 📥 PDF

作者: Zeyu Wang, Xiaogang Li, Peiyao Xiao, Qinhao Kong, Ben Wang, Chengliang Xu, Zichao Chen, Bing Zhao, Hu Wei

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

FeynmanBench:用于评估多模态LLM在费曼图推理能力上的基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 费曼图 多模态LLM 基准测试 物理推理 科学发现

📋 核心要点

  1. 现有基准测试侧重于局部信息提取,缺乏对科学符号中全局结构逻辑的评估,无法有效评估AI在理论物理中的应用。
  2. FeynmanBench通过费曼图任务,评估AI在多步图解推理中的能力,包括守恒定律、对称性约束、拓扑结构识别等。
  3. 实验表明,现有MLLM在物理约束执行和全局拓扑条件上存在系统性问题,强调了物理基础基准测试的必要性。

📝 摘要(中文)

本文提出了FeynmanBench,这是一个专门用于评估人工智能在费曼图任务中多步图解推理能力的基准测试。费曼图推理需要满足守恒定律和对称性约束,识别图的拓扑结构,在图解和代数表示之间进行转换,以及在特定约定和规范下构建散射幅度。为了支持大规模和可复现的评估,作者开发了一个自动化流程,生成多样化的费曼图,并提供可验证的拓扑注释和幅度结果。该数据库涵盖了标准模型的电磁、弱和强相互作用,包含100多种不同的类型和2000多个任务。对现有先进多模态LLM的实验表明,存在系统性的失效模式,包括物理约束的不稳定执行和全局拓扑条件的违反,突出了对基于物理的科学符号视觉推理基准的需求。FeynmanBench为人工智能是否能有效参与科学发现,特别是在理论物理学中,提供了一个逻辑上严谨的测试。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在科学任务中展现出潜力,但现有基准测试主要关注局部信息提取,忽略了科学符号中固有的全局结构逻辑。这使得评估AI在理论物理等领域的能力变得困难,尤其是在需要复杂图解推理的场景下。费曼图作为理论物理中的重要工具,其推理过程涉及多个步骤和复杂的物理约束,现有方法难以有效处理。

核心思路:FeynmanBench的核心思路是构建一个专门针对费曼图推理的基准测试,通过设计一系列任务来评估AI在满足守恒定律、识别拓扑结构、转换图解和代数表示以及构建散射幅度等方面的能力。通过这种方式,可以更全面地评估AI在理论物理中的推理能力。

技术框架:FeynmanBench的整体框架包括以下几个主要部分:1) 费曼图生成器:自动生成多样化的费曼图,涵盖标准模型的电磁、弱和强相互作用。2) 拓扑注释器:为生成的费曼图提供可验证的拓扑注释,包括顶点、边和环的信息。3) 幅度计算器:计算费曼图对应的散射幅度,作为正确答案。4) 评估模块:评估MLLM在费曼图推理任务中的表现,并分析其失效模式。

关键创新:FeynmanBench的关键创新在于其专注于费曼图推理这一特定领域,并提供了一个大规模、可复现的基准测试。与现有的通用科学任务基准测试相比,FeynmanBench更具针对性,能够更有效地评估AI在理论物理中的推理能力。此外,自动化生成和评估流程也大大提高了基准测试的可扩展性和可重复性。

关键设计:FeynmanBench的任务设计涵盖了多个方面,包括:1) 守恒定律验证:要求AI验证费曼图中的能量、动量和电荷守恒。2) 拓扑结构识别:要求AI识别费曼图中的顶点、边和环,并分析其拓扑结构。3) 图解-代数转换:要求AI将费曼图转换为对应的代数表达式,或将代数表达式转换为费曼图。4) 散射幅度计算:要求AI计算费曼图对应的散射幅度。在数据生成方面,采用了随机参数和多种物理模型,以保证数据的多样性和真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在对现有先进多模态LLM的实验中,FeynmanBench揭示了其在费曼图推理任务中的系统性失效模式,包括物理约束的不稳定执行和全局拓扑条件的违反。这些结果表明,现有MLLM在处理复杂的科学符号和进行多步推理方面仍存在不足,需要进一步改进。

🎯 应用场景

FeynmanBench可用于评估和改进多模态LLM在理论物理领域的应用能力,例如自动推导物理公式、辅助物理研究人员进行费曼图分析和计算等。该基准测试还有助于推动AI在科学发现中的应用,并为开发更强大的科学推理AI系统提供指导。

📄 摘要(原文)

Breakthroughs in frontier theory often depend on the combination of concrete diagrammatic notations with rigorous logic. While multimodal large language models (MLLMs) show promise in general scientific tasks, current benchmarks often focus on local information extraction rather than the global structural logic inherent in formal scientific notations. In this work, we introduce FeynmanBench, the first benchmark centered on Feynman diagram tasks. It is designed to evaluate AI's capacity for multistep diagrammatic reasoning, which requires satisfying conservation laws and symmetry constraints, identifying graph topology, converting between diagrammatic and algebraic representations, and constructing scattering amplitudes under specific conventions and gauges. To support large-scale and reproducible evaluation, we developed an automated pipeline producing diverse Feynman diagrams along with verifiable topological annotations and amplitude results. Our database spans the electromagnetic, weak, and strong interactions of the Standard Model, encompasses over 100 distinct types and includes more than 2000 tasks. Experiments on state-of-the-art MLLMs reveal systematic failure modes, including unstable enforcement of physical constraints and violations of global topological conditions, highlighting the need for physics-grounded benchmarks for visual reasoning over scientific notation. FeynmanBench provides a logically rigorous test of whether AI can effectively engage in scientific discovery, particularly within theoretical physics.