Does Learning Mathematical Problem-Solving Generalize to Broader Reasoning?
作者: Ruochen Zhou, Minrui Xu, Shiqi Chen, Junteng Liu, Yunqi Li, Xinxin Lin, Zhengyu Chen, Junxian He
分类: cs.CL
发布日期: 2025-07-06
💡 一句话要点
研究表明,数学问题求解学习的泛化能力受训练方法影响显著
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学问题求解 泛化能力 长链思维 强化学习 指令调优
📋 核心要点
- 现有研究主要集中于构建专门的数学问题求解模型,忽略了数学学习对其他推理能力的潜在影响。
- 本文通过实证研究,探索了不同数学问题求解训练方法在通用推理任务上的泛化能力。
- 实验表明,长链思维和强化学习方法在数学问题求解中能有效提升模型在通用推理任务上的表现。
📝 摘要(中文)
本文旨在探究大型语言模型在数学问题求解(MPS)方面的学习能力,以及这种能力如何泛化到其他推理任务。研究对比了多种MPS训练方法,包括持续预训练、指令调优和基于规则的强化学习,并使用了不同数据源,包括短链和长链思维(CoT)样本。实验结果表明,在数学文本上进行持续预训练能够在一定程度上泛化到一般推理任务。相比之下,在传统的短链MPS样本上进行指令调优效果有限,甚至会损害泛化性能。值得注意的是,使用长链CoT响应进行MPS样本训练,以及在MPS查询中加入基于规则的强化学习,表现出显著的泛化能力提升。这些结果表明,传统的短链推理学习方法难以实现鲁棒的泛化,而更长的推理链以及自反思的新范式,为通过学习特定领域知识来提高通用推理能力提供了一个有希望的方向。
🔬 方法详解
问题定义:现有的大型语言模型在数学问题求解方面取得了显著进展,但缺乏对数学学习能否促进更广泛推理能力发展的研究。现有方法主要集中于短链思维的数学问题求解,忽略了长链推理和自反思的重要性,导致泛化能力不足。
核心思路:本文的核心思路是探索不同的数学问题求解训练方法,特别是长链思维和基于规则的强化学习,如何影响模型在通用推理任务上的泛化能力。通过对比不同训练策略,揭示长链推理和自反思在提升泛化能力中的作用。
技术框架:本文采用实证研究的方法,对比了三种主要的训练方法:持续预训练、指令调优和基于规则的强化学习。这些方法应用于不同类型的数学问题求解数据集,包括短链和长链思维样本。评估在5个数学和8个通用推理基准上进行,以衡量模型的泛化能力。
关键创新:本文的关键创新在于揭示了长链思维和基于规则的强化学习在提升数学问题求解模型泛化能力中的重要作用。与传统的短链思维训练方法相比,长链推理和自反思能够显著提高模型在通用推理任务上的表现。
关键设计:本文的关键设计包括:1) 使用长链思维(CoT)样本进行训练,鼓励模型进行更深入的推理;2) 引入基于规则的强化学习,使模型能够从错误中学习并改进推理过程;3) 对比不同训练方法在多个数学和通用推理基准上的表现,以全面评估模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在数学文本上进行持续预训练能够在一定程度上泛化到一般推理任务。使用长链CoT响应进行MPS样本训练,以及在MPS查询中加入基于规则的强化学习,显著提升了泛化能力。传统的短链思维学习方法难以实现鲁棒的泛化。
🎯 应用场景
该研究成果可应用于开发更通用的智能系统,例如智能助手、教育平台和决策支持系统。通过提升模型的推理能力,可以使其更好地理解和解决现实世界中的复杂问题。未来的研究可以进一步探索如何将长链推理和自反思应用于其他领域,以提高模型的泛化能力。
📄 摘要(原文)
There has been a growing interest in enhancing the mathematical problem-solving (MPS) capabilities of large language models. While the majority of research efforts concentrate on creating specialized models to solve mathematical problems, it remains unknown how learning mathematical problem-solving generalizes to help develop other reasoning abilities. In this paper, we present an empirical investigation into the generalization potential of various MPS training approaches, such as continual pretraining, instruction tuning, and rule-based reinforcement learning across various data sources, including both short and long chain-of-thought (CoT) samples. Evaluation on 5 mathematical and 8 general reasoning benchmarks show that continual pretraining on math text is able to generalize to general reasoning tasks to some extent. In constrast, instruction tuning on conventional, short MPS samples provides limited benefits and, in many cases, even impairs generalization performance. Notably, training with long CoT responses for MPS samples and incorporating rule-based reinforcement learning on MPS queries exhibit distinct behavior, significantly enhancing generalization by extending the model's reasoning processes into other domains. These results suggest that traditional approaches to learning MPS with short reasoning chains largely fail to achieve robust generalization. However, the emerging paradigm of longer reasoning chains, coupled with self-reflection, offers a promising direction for improving generalized reasoning abilities through learning from specialized domains.