Arithmetic Pedagogy for Language Models
作者: Andhika Bernard Lumbantobing, Hokky Situngkir
分类: cs.CL, cs.AI, cs.CY
发布日期: 2026-06-03
备注: 18 pages, 6 figures
💡 一句话要点
提出基于人类数学教学法的语言模型算术推理训练方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 算术推理 教学法 自然语言处理 模型训练
📋 核心要点
- 现有语言模型在算术推理方面的能力有限,尤其是在处理基本算术问题时表现不佳。
- 本研究提出了一种基于GASING教学法的训练方法,通过自然语言思维链监督来引导模型学习算术推理。
- 实验结果表明,训练后的模型在保留问题上超过80%的准确率,并在与更大模型的比较中表现出竞争力。
📝 摘要(中文)
本研究探讨人类数学教学法是否能指导语言模型的算术推理训练。基于GASING方法,该方法通过与生成令牌的因果顺序一致的从左到右程序解决基本算术问题。我们将每个操作转化为计算过程,并将其执行轨迹序列化为自然语言的思维链(CoT)监督。使用仅有下一个令牌预测目标的小型GPT-2解码器进行训练,监测训练过程显示出三个不同的学习阶段,机制分析表明模型首先内化了程序路径,随后发展出检索中间结果的“心算”能力。训练后的模型在保留问题上达到了超过80%的准确率,并在与更大语言模型的比较中表现出竞争力,表明有针对性的教学基础训练能够在小规模下实现强大且经济的算术能力。
🔬 方法详解
问题定义:本论文旨在解决语言模型在算术推理方面的不足,尤其是基本算术问题的处理能力有限。现有方法缺乏有效的教学指导,导致模型在算术推理上表现不佳。
核心思路:论文的核心思路是借鉴人类数学教学法,特别是GASING方法,通过将算术操作转化为计算过程并序列化为自然语言思维链(CoT)来指导模型训练。这种方法旨在通过结构化的教学过程提升模型的算术推理能力。
技术框架:整体架构包括数据准备、模型训练和评估三个主要阶段。数据准备阶段将算术操作转化为CoT格式,模型训练阶段使用小型GPT-2解码器进行训练,评估阶段则通过监测模型的学习过程和准确率来验证效果。
关键创新:最重要的技术创新在于将人类教学法与语言模型训练相结合,通过CoT监督引导模型学习算术推理。这与传统的无监督学习方法有本质区别,后者通常缺乏明确的教学指导。
关键设计:在训练过程中,使用了小型GPT-2解码器(86M参数)和TOBA分词器,训练目标为下一个令牌预测,未使用强化学习或基于奖励的优化。监测训练过程显示出三个不同的学习阶段,模型首先内化程序路径,然后发展出心算能力。
🖼️ 关键图片
📊 实验亮点
实验结果显示,训练后的模型在保留问题上达到了超过80%的准确率,并且在与更大语言模型的比较中表现出竞争力,证明了有针对性的教学基础训练在小规模下能够实现强大且经济的算术能力。
🎯 应用场景
该研究的潜在应用领域包括教育技术、智能辅导系统和自然语言处理等。通过将人类教学法应用于模型训练,可以提升语言模型在算术推理方面的能力,进而推动智能教育工具的发展,帮助学生更好地理解和掌握数学知识。
📄 摘要(原文)
We investigate whether methods of human mathematics pedagogy can guide the training of language models toward arithmetic reasoning. Building on the GASING method -- an Indonesian pedagogy that solves basic arithmetic through a left-to-right procedure aligned with the causal order of token generation -- we operationalize each operation as a computational procedure whose execution trace is serialized into natural-language Chain-of-Thought (CoT) supervision. A small GPT-2 decoder (86M parameters) with a syllabic-agglutinative TOBA tokenizer for Indonesian is trained from scratch on this data using only a next-token prediction objective, without reinforcement learning or reward-based optimization. Monitoring training reveals three distinct learning phases, and mechanistic analyses -- attention-masking interventions on the CoT information graph, residual-stream probing, and logit-lens inspection -- show that the model first internalizes a procedural pathway and subsequently develops an associative, ``mental-arithmetic'' capacity that retrieves intermediate results without explicit step-by-step computation. The trained model reaches over 80% accuracy on held-out problems and attains competitive performance against substantially larger language models, indicating that targeted, pedagogically grounded training can yield strong and economical arithmetic capability at small scale.