Can LLMs Reason Abstractly Over Math Word Problems Without CoT? Disentangling Abstract Formulation From Arithmetic Computation
作者: Ziling Cheng, Meng Cao, Leila Pishdad, Yanshuai Cao, Jackie Chi Kit Cheung
分类: cs.CL
发布日期: 2025-05-29
💡 一句话要点
解耦抽象建模与算术计算,揭示LLM在数学问题中推理能力的瓶颈
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学应用题 推理能力 解耦评估 因果修补
📋 核心要点
- 现有基于最终答案的数学问题求解评估方法,难以区分抽象建模和算术计算能力。
- 论文提出一种解耦评估方法,将数学问题求解过程分解为抽象建模和算术计算两个独立步骤。
- 实验表明,LLM在没有CoT的情况下,数学问题求解的瓶颈在于算术计算,而非抽象建模。
📝 摘要(中文)
本文研究了大型语言模型(LLM)在解决数学应用题时的推理能力评估问题。传统的基于最终答案的评估指标,常常将抽象建模(使用表达式捕捉数学关系)和算术计算(执行计算)这两个不同的子技能混淆。通过在GSM8K和SVAMP数据集上对Llama-3和Qwen2.5(1B-32B)进行解耦评估,发现不使用CoT时,LLM的最终答案准确率主要受限于算术计算步骤,而非抽象建模步骤。与普遍认知相反,CoT主要有助于计算,对抽象建模的影响有限。从机制上讲,即使在没有任何推理步骤的单次前向传递中,这两个技能也是结合在一起的,通过一种抽象-计算机制:模型首先捕获问题抽象,然后处理计算。因果修补证实了这些抽象的存在性、可转移性、可组合性以及先于计算的特性。这些行为和机制发现强调了需要解耦评估来准确评估LLM的推理能力,并指导未来的改进。
🔬 方法详解
问题定义:现有评估LLM在数学应用题上的表现,通常只关注最终答案的正确性,这种评估方式无法区分模型是在抽象建模(将问题转化为数学表达式)上出错,还是在算术计算上出错。这种混淆使得我们难以准确评估LLM的真正推理能力,也阻碍了我们针对性地改进模型。
核心思路:本文的核心思路是将数学应用题的求解过程解耦为两个独立的步骤:抽象建模和算术计算。通过分别评估这两个步骤的性能,可以更清晰地了解LLM的优势和不足。论文认为,CoT方法之所以有效,主要是因为它辅助了算术计算,而非抽象建模。
技术框架:论文采用了一种解耦评估框架,首先,使用LLM生成数学表达式(抽象建模),然后,使用计算器执行这些表达式(算术计算)。通过比较LLM直接输出答案和先生成表达式再计算的结果,可以评估抽象建模和算术计算各自的贡献。此外,论文还使用了因果修补技术,来验证模型内部是否存在抽象表示,以及这些表示如何影响计算。
关键创新:本文最重要的创新点在于提出了数学问题求解的解耦评估方法,并揭示了LLM在没有CoT的情况下,算术计算是性能瓶颈。此外,论文还通过因果修补技术,验证了模型内部存在抽象表示,并证明了这些表示在计算之前就已经存在。
关键设计:论文使用了GSM8K和SVAMP两个数学应用题数据集,并选择了Llama-3和Qwen2.5(1B-32B)作为评估对象。在因果修补实验中,论文设计了特定的干预策略,来验证抽象表示的存在性和可转移性。具体的参数设置和损失函数等细节,与所使用的LLM的默认设置保持一致。
🖼️ 关键图片
📊 实验亮点
研究表明,在没有CoT的情况下,Llama-3和Qwen2.5(1B-32B)在GSM8K和SVAMP数据集上的最终答案准确率主要受限于算术计算,而非抽象建模。CoT主要提升了计算能力,对抽象建模的影响有限。因果修补实验证实了模型内部存在抽象表示,且这些表示先于计算。
🎯 应用场景
该研究成果可应用于更精准地评估和提升LLM在数学、科学等领域的推理能力。通过解耦抽象建模和算术计算,可以针对性地改进LLM的薄弱环节,例如提高其算术计算的准确性,或者增强其抽象建模的能力。这有助于开发更可靠、更强大的AI系统,应用于教育、科研等领域。
📄 摘要(原文)
Final-answer-based metrics are commonly used for evaluating large language models (LLMs) on math word problems, often taken as proxies for reasoning ability. However, such metrics conflate two distinct sub-skills: abstract formulation (capturing mathematical relationships using expressions) and arithmetic computation (executing the calculations). Through a disentangled evaluation on GSM8K and SVAMP, we find that the final-answer accuracy of Llama-3 and Qwen2.5 (1B-32B) without CoT is overwhelmingly bottlenecked by the arithmetic computation step and not by the abstract formulation step. Contrary to the common belief, we show that CoT primarily aids in computation, with limited impact on abstract formulation. Mechanistically, we show that these two skills are composed conjunctively even in a single forward pass without any reasoning steps via an abstract-then-compute mechanism: models first capture problem abstractions, then handle computation. Causal patching confirms these abstractions are present, transferable, composable, and precede computation. These behavioural and mechanistic findings highlight the need for disentangled evaluation to accurately assess LLM reasoning and to guide future improvements.