Schoenfeld's Anatomy of Mathematical Reasoning by Language Models

📄 arXiv: 2512.19995v1 📥 PDF

作者: Ming Li, Chenrui Fan, Yize Cheng, Soheil Feizi, Tianyi Zhou

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-23


💡 一句话要点

提出ThinkARM框架,解析语言模型数学推理过程中的认知结构与步骤

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 数学推理 认知结构 推理步骤 可解释性

📋 核心要点

  1. 现有方法难以识别和分析语言模型深层的推理认知结构和步骤,仅停留在表面统计层面。
  2. 论文提出ThinkARM框架,将推理过程抽象为分析、探索、实施、验证等功能性步骤,揭示模型推理动态。
  3. 实验表明,ThinkARM能有效区分推理和非推理模型,并发现探索步骤与正确性相关,效率优化会抑制评估反馈。

📝 摘要(中文)

大型语言模型越来越多地展示出推理轨迹,但其潜在的认知结构和步骤仍然难以识别和分析,而不仅仅是表面层面的统计。我们采用Schoenfeld的Episode Theory作为一种归纳的、中等尺度的视角,并引入ThinkARM(模型推理剖析),这是一个可扩展的框架,它将推理轨迹显式地抽象为功能性的推理步骤,如分析、探索、实施、验证等。当应用于不同模型解决数学问题时,这种抽象揭示了可重复的思维动态以及推理模型和非推理模型之间的结构差异,这些差异在token级别视图中并不明显。我们进一步提出了两个诊断案例研究,表明探索作为与正确性相关的关键分支步骤,并且面向效率的方法选择性地抑制评估反馈步骤,而不是统一地缩短响应。总之,我们的结果表明,episode级别的表示使推理步骤显式化,从而能够系统地分析现代语言模型中推理是如何构建、稳定和改变的。

🔬 方法详解

问题定义:现有方法难以深入理解大型语言模型在数学推理中的认知过程,仅仅停留在token级别的表面分析,无法有效区分推理模型和非推理模型,也难以诊断推理过程中的问题。因此,如何有效地剖析语言模型的推理过程,理解其内在的认知结构和步骤,是本文要解决的关键问题。

核心思路:论文的核心思路是借鉴Schoenfeld的Episode Theory,将复杂的推理过程分解为一系列具有明确功能的步骤(如分析、探索、实施、验证等),从而将token级别的推理轨迹抽象为更高层次的、更易于理解的推理episode。通过分析这些episode的结构和动态,可以更深入地理解模型的推理过程。

技术框架:ThinkARM框架主要包含以下几个阶段:1) 推理轨迹提取:从语言模型的输出中提取推理轨迹,例如Chain-of-Thought的推理步骤。2) Episode划分:根据预定义的推理步骤类型(如分析、探索、实施、验证等),将推理轨迹划分为一系列episode。3) Episode标注:对每个episode进行标注,确定其所属的推理步骤类型。4) 推理动态分析:分析不同模型在不同问题上的episode序列,揭示其推理动态和结构差异。

关键创新:ThinkARM的关键创新在于将Schoenfeld的Episode Theory应用于语言模型的推理过程分析,提出了一种可扩展的框架,能够将token级别的推理轨迹抽象为功能性的推理步骤,从而实现对模型推理过程的更深入理解。与传统的token级别分析相比,ThinkARM能够揭示推理模型和非推理模型之间的结构差异,并诊断推理过程中的问题。

关键设计:论文中,推理步骤的定义是基于Schoenfeld的Episode Theory,并根据数学问题解决的特点进行了调整。具体的推理步骤类型包括分析、探索、实施、验证等。Episode的划分和标注是基于人工规则和启发式方法。推理动态分析主要采用统计分析和可视化方法,例如分析不同模型在不同问题上的episode序列的频率和顺序。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ThinkARM能够有效区分推理模型和非推理模型,并揭示了它们在推理结构上的差异。例如,推理模型通常包含更多的探索步骤,而探索步骤与正确性密切相关。此外,实验还发现,面向效率的方法会选择性地抑制评估反馈步骤,而不是统一地缩短响应。

🎯 应用场景

该研究成果可应用于提升大型语言模型的数学推理能力,例如通过优化推理步骤的结构和动态,提高模型的正确率和效率。此外,该方法还可以用于诊断模型推理过程中的问题,例如识别模型容易出错的推理步骤,并针对性地进行改进。该研究对于开发更可靠、更可解释的AI系统具有重要意义。

📄 摘要(原文)

Large language models increasingly expose reasoning traces, yet their underlying cognitive structure and steps remain difficult to identify and analyze beyond surface-level statistics. We adopt Schoenfeld's Episode Theory as an inductive, intermediate-scale lens and introduce ThinkARM (Anatomy of Reasoning in Models), a scalable framework that explicitly abstracts reasoning traces into functional reasoning steps such as Analysis, Explore, Implement, Verify, etc. When applied to mathematical problem solving by diverse models, this abstraction reveals reproducible thinking dynamics and structural differences between reasoning and non-reasoning models, which are not apparent from token-level views. We further present two diagnostic case studies showing that exploration functions as a critical branching step associated with correctness, and that efficiency-oriented methods selectively suppress evaluative feedback steps rather than uniformly shortening responses. Together, our results demonstrate that episode-level representations make reasoning steps explicit, enabling systematic analysis of how reasoning is structured, stabilized, and altered in modern language models.