Disentangling Mathematical Reasoning in LLMs: A Methodological Investigation of Internal Mechanisms

📄 arXiv: 2604.15842v1 📥 PDF

作者: Tanja Baeumel, Josef van Genabith, Simon Ostermann

分类: cs.CL

发布日期: 2026-04-17

备注: MathNLP 2025


💡 一句话要点

通过解耦LLM内部机制,研究其数学推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 内部机制 早期解码 注意力机制 MLP模块 算术运算

📋 核心要点

  1. 现有研究对LLM处理推理任务的内部机制理解不足,尤其是在算术运算方面。
  2. 该研究通过早期解码追踪LLM在执行算术任务时,跨层级的token预测构建过程。
  3. 实验发现,擅长算术的LLM在注意力模块和MLP模块间存在明确分工,且能以函数式方式处理复杂任务。

📝 摘要(中文)

大型语言模型(LLM)展现了令人印象深刻的能力,但其处理推理密集型任务的内部机制仍未被充分探索。为了增进对模型内部处理机制的理解,我们通过检查LLM在任务执行期间的内部机制,研究它们如何执行算术运算。利用早期解码,我们追踪了跨层级的下一个token预测是如何构建的。我们的实验表明,虽然模型能够及早识别算术任务,但只有在最后几层才能生成正确的结果。值得注意的是,擅长算术的模型在注意力模块和MLP模块之间表现出明确的分工,其中注意力模块传播输入信息,而MLP模块聚合信息。这种分工在不太擅长的模型中是不存在的。此外,成功的模型似乎能够以函数式的方式处理更具挑战性的算术任务,这表明它们具有超越事实回忆的推理能力。

🔬 方法详解

问题定义:论文旨在深入理解大型语言模型(LLM)在执行数学推理任务,特别是算术运算时的内部工作机制。现有方法主要关注LLM的外部表现,而忽略了模型内部各层级如何协同完成任务。因此,痛点在于缺乏对LLM内部推理过程的细粒度理解,难以解释其成功或失败的原因。

核心思路:论文的核心思路是通过“解耦”LLM的内部机制,即分别考察模型不同层级、不同模块(如注意力机制和MLP)在算术运算过程中的作用。通过追踪token预测的构建过程,揭示模型如何逐步完成从识别任务到生成正确结果的推理过程。这样设计的目的是为了更清晰地理解LLM的推理能力来源,以及不同模块之间的协作方式。

技术框架:论文采用的技术框架主要包括:1) 早期解码(Early Decoding):在模型推理的早期阶段就提取中间层的输出,以便追踪token预测的构建过程。2) 层级分析(Layer-wise Analysis):分析不同层级对最终结果的影响,确定哪些层负责识别任务,哪些层负责生成结果。3) 模块分析(Module Analysis):区分注意力模块和MLP模块在推理过程中的作用,观察它们如何分工协作。整体流程是:输入算术任务 -> LLM进行推理 -> 早期解码提取中间层输出 -> 分析各层级和模块的贡献 -> 评估模型推理能力。

关键创新:论文最重要的技术创新点在于其研究方法,即通过早期解码和模块分析,系统性地解耦LLM的内部机制,从而揭示其在数学推理任务中的工作原理。与现有方法相比,该方法不再仅仅关注模型的输入输出,而是深入到模型内部,探究其推理过程的细节。这种方法为理解LLM的推理能力提供了新的视角。

关键设计:论文的关键设计包括:1) 算术任务选择:选择不同难度的算术任务,以考察模型在不同情况下的表现。2) 早期解码层数:选择合适的层数进行早期解码,以保证能够捕捉到模型推理过程的关键信息。3) 模块贡献度评估:设计指标来量化注意力模块和MLP模块在不同层级的贡献度。具体的参数设置、损失函数和网络结构等细节取决于所使用的LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,擅长算术的LLM在注意力模块和MLP模块之间存在明确的分工,注意力模块负责传播输入信息,而MLP模块负责聚合信息。此外,这些模型能够以函数式的方式处理更具挑战性的算术任务,表明它们具有超越事实回忆的推理能力。不擅长算术的LLM则缺乏这种分工。

🎯 应用场景

该研究成果可应用于提升LLM的数学推理能力,例如通过优化模型结构或训练策略,使其更好地处理复杂的算术问题。此外,该研究方法也可推广到其他推理任务,帮助我们更深入地理解LLM的内部机制,并为开发更强大的AI系统提供理论指导。

📄 摘要(原文)

Large language models (LLMs) have demonstrated impressive capabilities, yet their internal mechanisms for handling reasoning-intensive tasks remain underexplored. To advance the understanding of model-internal processing mechanisms, we present an investigation of how LLMs perform arithmetic operations by examining internal mechanisms during task execution. Using early decoding, we trace how next-token predictions are constructed across layers. Our experiments reveal that while the models recognize arithmetic tasks early, correct result generation occurs only in the final layers. Notably, models proficient in arithmetic exhibit a clear division of labor between attention and MLP modules, where attention propagates input information and MLP modules aggregate it. This division is absent in less proficient models. Furthermore, successful models appear to process more challenging arithmetic tasks functionally, suggesting reasoning capabilities beyond factual recall.