HintMR: Eliciting Stronger Mathematical Reasoning in Small Language Models

📄 arXiv: 2604.12229v1 📥 PDF

作者: Jawad Hossain, Xiangyu Guo, Jiawei Zhou, Chong Liu

分类: cs.AI, cs.CL

发布日期: 2026-04-14

备注: 15 pages, 5 figures, Preprint


💡 一句话要点

HintMR:通过提示辅助增强小语言模型中的数学推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 小语言模型 提示学习 知识蒸馏 多步推理

📋 核心要点

  1. 小语言模型在复杂数学推理中面临挑战,因为它们难以维持长推理链并纠正早期错误。
  2. HintMR框架通过将问题分解为步骤,并利用蒸馏训练的SLM生成上下文相关的提示来引导推理。
  3. 实验表明,HintMR显著提高了小语言模型在数学推理任务中的准确性,且保持了模型效率。

📝 摘要(中文)

小语言模型(SLMs)由于容量有限,难以维持长链中间步骤和从早期错误中恢复,因此在复杂的数学推理方面表现不佳。本文提出了一种提示辅助推理框架,通过逐步引导SLM完成多步骤数学问题求解来解决这一挑战。该方法将解决方案分解为顺序推理步骤,并提供上下文相关的提示,这些提示由一个单独的SLM生成,该SLM通过从强大的大型语言模型中蒸馏训练得到。虽然单独的提示生成SLM无法解决问题,但它与推理SLM的协作能够实现有效的指导,形成一个用于推理的协作双模型系统。每个提示都是有条件地根据问题陈述和累积的推理历史生成的,提供逐步的、局部的指导,而不会泄露完整的解决方案。这减少了错误传播,并允许推理模型专注于可管理的子问题。在不同的数学基准和模型上的实验表明,提示辅助始终提高SLM的推理准确性,与标准提示相比,产生了显著的收益,同时保持了模型效率。这些结果表明,SLM之间通过提示生成和推理进行结构化协作,为增强数学推理提供了一种有效且轻量级的机制。

🔬 方法详解

问题定义:论文旨在解决小语言模型(SLMs)在复杂数学推理任务中表现不佳的问题。现有的SLMs由于模型容量的限制,难以处理需要多步骤推理的数学问题,容易在推理过程中出现错误并难以纠正,导致最终结果的准确率较低。

核心思路:论文的核心思路是引入一个提示辅助的推理框架,通过将复杂的数学问题分解为一系列简单的推理步骤,并为每个步骤提供上下文相关的提示,引导SLM逐步解决问题。这种方法类似于人类解决复杂问题时,通过分解问题并寻求提示来降低难度。

技术框架:HintMR框架包含两个SLM:一个推理SLM和一个提示生成SLM。推理SLM负责执行实际的推理步骤,而提示生成SLM则负责根据当前的问题状态(包括问题描述和已有的推理历史)生成提示信息。提示生成SLM通过从一个更强大的大型语言模型(LLM)中进行知识蒸馏得到,使其具备生成高质量提示的能力。整个流程如下:1. 推理SLM接收问题描述和之前的推理步骤;2. 提示生成SLM根据问题描述和推理历史生成提示;3. 推理SLM结合提示进行下一步推理;4. 重复步骤1-3,直到问题解决。

关键创新:HintMR的关键创新在于利用两个SLM的协作来增强数学推理能力。与直接使用大型语言模型或单独训练SLM相比,HintMR通过提示辅助的方式,降低了对单个模型容量的要求,同时提高了推理的准确性和效率。此外,HintMR的提示是上下文相关的,可以根据推理的进展动态调整,避免了错误的传播。

关键设计:提示生成SLM通过知识蒸馏的方式从大型语言模型中学习生成提示。具体的蒸馏过程未知,论文中没有详细描述。推理SLM和提示生成SLM的具体网络结构也未知。论文重点在于框架的设计,而非特定模型的选择或优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HintMR框架能够显著提高小语言模型在数学推理任务中的准确性。在多个数学基准测试中,HintMR相对于标准prompting方法取得了显著的性能提升,证明了提示辅助推理的有效性。具体的性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

HintMR框架可应用于教育领域,例如智能辅导系统,帮助学生逐步解决数学难题。此外,该方法还可以扩展到其他需要复杂推理的任务中,例如代码生成、逻辑推理等,提升小模型的性能,降低计算成本。未来,HintMR有望在资源受限的设备上部署更强大的AI应用。

📄 摘要(原文)

Small language models (SLMs) often struggle with complex mathematical reasoning due to limited capacity to maintain long chains of intermediate steps and to recover from early errors. We address this challenge by introducing a hint-assisted reasoning framework that incrementally guides SLMs through multi-step mathematical problem solving. Our approach decomposes solutions into sequential reasoning steps and provides context-aware hints, where hints are generated by a separate SLM trained via distillation from a strong large language model. While the hint-generating SLM alone is not capable of solving the problems, its collaboration with a reasoning SLM enables effective guidance, forming a cooperative two-model system for reasoning. Each hint is generated conditionally on the problem statement and the accumulated reasoning history, providing stepwise, localized guidance without revealing full solutions. This reduces error propagation and allows the reasoning model to focus on manageable subproblems. Experiments across diverse mathematical benchmarks and models demonstrate that hint assistance consistently improves reasoning accuracy for SLMs, yielding substantial gains over standard prompting while preserving model efficiency. These results highlight that structured collaboration between SLMs-via hint generation and reasoning-offers an effective and lightweight mechanism for enhancing mathematical reasoning.