Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

作者: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue

分类: cs.AI, cs.CL

发布日期: 2025-07-01 (更新: 2025-10-20)

💡 一句话要点

研究表明数学推理能力提升不一定带来通用LLM能力提升，SFT可能导致能力遗忘。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 监督微调 强化学习 能力迁移 泛化能力 表征学习 模型调优

📋 核心要点

现有LLM在数学推理任务上表现优异，但其通用问题解决能力是否同步提升仍是未知数。
论文通过对比不同调优方法（SFT vs. RL）对LLM通用能力的影响，探究数学推理能力的可迁移性。
实验表明，SFT可能导致LLM遗忘通用能力，而RL调优的模型在不同领域表现出更好的泛化性。

📝 摘要（中文）

数学推理已成为大型语言模型(LLM)进展的代表，新模型在MATH和AIME等基准测试中迅速超越人类水平。但随着数学排行榜每周都在提高，值得思考的是：这些收益是否反映了更广泛的问题解决能力，还是仅仅是狭隘的过拟合？为了回答这个问题，我们评估了20多个开放权重的推理调优模型，涵盖数学、科学问答、智能体规划、编码和标准指令跟随等广泛的任务。我们惊讶地发现，大多数在数学方面成功的模型未能将其收益转移到其他领域。为了严格研究这种现象，我们使用仅数学数据和不同的调优方法，在Qwen3-14B模型上进行了受控实验。我们发现，强化学习(RL)调优的模型在各个领域都表现出良好的泛化能力，而监督微调(SFT)调优的模型常常忘记通用能力。潜在空间表示和token空间分布偏移分析表明，SFT会引起大量的表示和输出漂移，而RL则保留了通用领域结构。我们的结果表明，需要重新思考标准的后训练方法，特别是依赖SFT蒸馏数据来推进推理模型。

🔬 方法详解

问题定义：论文旨在研究通过数学推理训练提升LLM能力后，这种能力是否能够迁移到其他非数学领域。现有方法，特别是依赖监督微调（SFT）的方法，在提升数学推理能力的同时，可能会导致模型在其他通用任务上的性能下降，即出现“能力遗忘”现象。

核心思路：论文的核心思路是通过对比不同训练方法（SFT和RL）对LLM表征空间和token空间的影响，来解释数学推理能力迁移性的差异。SFT可能导致模型过度拟合数学数据，从而改变其在通用领域的表征，而RL可能更好地保留了通用领域的结构。

技术框架：论文主要采用实验分析的方法。首先，评估了20多个开源LLM在多种任务上的性能，包括数学、科学问答、智能体规划、编码和指令跟随。然后，在Qwen3-14B模型上进行了受控实验，使用仅数学数据，分别采用SFT和RL进行训练。最后，通过分析模型在潜在空间中的表示和token空间中的分布，来解释不同训练方法对模型泛化能力的影响。

关键创新：论文的关键创新在于揭示了SFT在提升数学推理能力的同时，可能导致LLM遗忘通用能力，而RL调优的模型则表现出更好的泛化性。通过对表征空间和token空间的分析，解释了SFT和RL对模型泛化能力的不同影响。

关键设计：论文的关键设计包括：1) 选择Qwen3-14B作为基础模型，因为它具有较强的通用能力；2) 使用相同的数学数据集，分别采用SFT和RL进行训练，以控制变量；3) 使用多种评估任务，涵盖不同的领域，以全面评估模型的泛化能力；4) 通过分析潜在空间表示和token空间分布，深入理解不同训练方法对模型的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SFT调优的模型在数学任务上表现出色，但在其他任务上的性能显著下降，甚至低于未经训练的模型。相反，RL调优的模型在数学任务上取得了可比的结果，同时保持了在其他任务上的良好性能。表征空间和token空间分析表明，SFT导致了显著的表示和输出漂移，而RL则保留了通用领域结构。

🎯 应用场景

该研究成果对LLM的训练和调优具有重要指导意义。在提升LLM特定领域能力时，应避免过度依赖SFT，并探索更有效的训练方法，如RL，以保持模型的通用能力。这有助于开发更可靠、更通用的AI系统，应用于智能客服、教育辅导、科研助手等领域。

📄 摘要（原文）

Math reasoning has become the poster child of progress in large language models (LLMs), with new models rapidly surpassing human-level performance on benchmarks like MATH and AIME. But as math leaderboards improve week by week, it is worth asking: do these gains reflect broader problem-solving ability or just narrow overfitting? To answer this question, we evaluate over 20 open-weight reasoning-tuned models across a broad suite of tasks, including math, scientific QA, agent planning, coding, and standard instruction-following. We surprisingly find that most models that succeed in math fail to transfer their gains to other domains. To rigorously study this phenomenon, we conduct controlled experiments on Qwen3-14B models using math-only data but different tuning methods. We find that reinforcement learning (RL)-tuned models generalize well across domains, while supervised fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space representation and token-space distribution shift analyses reveal that SFT induces substantial representation and output drift, while RL preserves general-domain structure. Our results suggest a need to rethink standard post-training recipes, particularly the reliance on SFT-distilled data for advancing reasoning models.

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理