MathBode: Measuring the Stability of LLM Reasoning using Frequency Response

📄 arXiv: 2509.23143v4 📥 PDF

作者: Charles L. Wang

分类: cs.AI, cs.LG, eess.SY

发布日期: 2025-09-27 (更新: 2025-12-03)


💡 一句话要点

MathBode:利用频率响应测量LLM数学推理的稳定性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 频率响应 动态系统 模型评估

📋 核心要点

  1. 现有LLM数学推理评估主要依赖一次性准确率,忽略了模型在参数变化时的动态响应。
  2. MathBode通过正弦驱动参数,分析模型输出的频率响应,提取增益和相位等指标,刻画推理稳定性。
  3. 实验表明,MathBode能有效区分不同LLM的推理动态性,揭示了传统指标难以发现的低通行为和相位滞后。

📝 摘要(中文)

本文提出MathBode,一种用于评估大型语言模型(LLM)数学推理能力的动态诊断方法。MathBode并非采用传统的一次性准确率评估,而是将每个参数化问题视为一个系统:通过正弦方式驱动单个参数,并拟合模型输出和精确解的一阶谐波响应。由此产生可解释的、频率分辨的指标——增益(幅度跟踪)和相位(滞后),形成Bode风格的指纹。在五个闭式解算问题族(线性求解、比率/饱和、复利、2x2线性系统、相似三角形)上,该诊断揭示了系统性的低通行为和不断增长的相位滞后,而这些现象被单独的准确率指标所掩盖。我们将多个模型与校准仪器的符号基线(G≈1,φ≈0)进行比较。结果在动态性上区分了前沿模型和中等模型,提供了一种紧凑、可复现的协议,通过对推理保真度和一致性的可操作测量来补充标准基准。我们开源了数据集和代码,以促进进一步的研究和应用。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在数学推理方面表现出一定的能力,但传统的评估方法,如一次性准确率,无法充分捕捉模型在面对参数变化时的动态行为。这些方法忽略了模型推理过程的稳定性和一致性,即模型在参数发生微小扰动时,输出结果是否能够保持稳定和可预测。因此,需要一种新的方法来更全面地评估LLM的数学推理能力。

核心思路:MathBode的核心思路是将数学问题视为一个动态系统,通过改变问题的参数,观察模型输出的响应。具体来说,选择一个关键参数,并使其按照正弦函数的方式变化,然后分析模型输出结果的频率响应。通过分析增益(输出幅度与输入幅度之比)和相位(输出信号相对于输入信号的滞后)等指标,可以评估模型在不同频率下的推理能力和稳定性。

技术框架:MathBode的整体框架包括以下几个主要步骤:1) 选择一类参数化的数学问题,例如线性方程求解、复利计算等。2) 确定一个关键参数,并使其按照正弦函数的方式变化。3) 使用LLM求解不同参数下的问题,记录模型的输出结果。4) 对模型输出结果进行傅里叶分析,提取一阶谐波分量。5) 计算增益和相位等频率响应指标,绘制Bode图。6) 将LLM的Bode图与符号计算基线的Bode图进行比较,评估LLM的推理能力。

关键创新:MathBode最重要的技术创新点在于将频率响应分析引入到LLM的数学推理评估中。与传统的一次性准确率评估相比,MathBode能够更全面地刻画模型的动态行为,揭示模型在不同频率下的推理能力和稳定性。此外,MathBode还提供了一种可解释的评估方法,通过增益和相位等指标,可以深入了解模型的推理过程。

关键设计:MathBode的关键设计包括:1) 选择合适的参数化数学问题,确保问题具有一定的复杂性和代表性。2) 选择合适的正弦驱动频率范围,覆盖模型可能存在的动态行为。3) 使用精确的符号计算结果作为基线,校准评估仪器。4) 采用一阶谐波分析,简化频率响应的计算。5) 设计清晰的Bode图可视化,方便分析和比较不同模型的推理能力。

📊 实验亮点

实验结果表明,MathBode能够有效区分不同LLM的推理动态性。例如,前沿模型在低频段表现出较高的增益和较小的相位滞后,表明其推理过程更加稳定和准确。而中等模型则表现出明显的低通行为和较大的相位滞后,表明其推理过程容易受到参数变化的影响。MathBode还揭示了传统指标难以发现的系统性误差模式。

🎯 应用场景

MathBode可用于评估和比较不同LLM的数学推理能力,帮助研究人员选择更适合特定任务的模型。此外,该方法还可以用于诊断LLM推理过程中的问题,例如识别模型在哪些频率下容易出现错误,从而指导模型改进。MathBode有望推动LLM在科学计算、工程设计等领域的应用。

📄 摘要(原文)

This paper presents MathBode, a dynamic diagnostic for mathematical reasoning in large language models (LLMs). Instead of one-shot accuracy, MathBode treats each parametric problem as a system: we drive a single parameter sinusoidally and fit first-harmonic responses of model outputs and exact solutions. This yields interpretable, frequency-resolved metrics -- gain (amplitude tracking) and phase (lag) -- that form Bode-style fingerprints. Across five closed-form families (linear solve, ratio/saturation, compound interest, 2x2 linear systems, similar triangles), the diagnostic surfaces systematic low-pass behavior and growing phase lag that accuracy alone obscures. We compare several models against a symbolic baseline that calibrates the instrument ($G \approx 1$, $φ\approx 0$). Results separate frontier from mid-tier models on dynamics, providing a compact, reproducible protocol that complements standard benchmarks with actionable measurements of reasoning fidelity and consistency. We open-source the dataset and code to enable further research and adoption.