Can Large Reasoning Models Improve Accuracy on Mathematical Tasks Using Flawed Thinking?

📄 arXiv: 2512.17079v1 📥 PDF

作者: Saraswathy Amjith, Mihika Dusad, Neha Muramalla, Shweta Shah

分类: cs.LG, cs.AI

发布日期: 2025-12-18


💡 一句话要点

通过有缺陷推理训练,提升大模型在数学任务中的容错性和准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 思维链 容错性 错误恢复 强化学习 缺陷推理 Qwen3-4B

📋 核心要点

  1. 大型语言模型在数学推理中易受早期错误影响,单个错误会传播导致最终答案错误。
  2. 通过在包含有意缺陷的推理轨迹上训练模型,使其能够检测并纠正错误,同时保持准确性。
  3. 实验表明,使用混合缺陷推理训练的模型在容错性上优于标准RL,且不损失在干净问题上的性能。

📝 摘要(中文)

思维链(CoT)提示已成为大型语言模型中数学推理的核心,但模型仍然对早期错误很敏感:一个算术错误或无根据的推断通常会未经纠正地传播到不正确的最终答案。本文研究了训练模型识别和纠正此类错误,同时不降低标准问题解决能力的方法,即使用有意存在缺陷的推理轨迹进行训练。使用来自MATH-lighteval的竞赛级别问题,生成包含一个受控错误的CoT前缀,包括计算错误(符号翻转、丢项)或推理错误(误用规则、无根据的逻辑步骤),并使用GRPO对Qwen3-4B进行微调,使用二元最终答案奖励。本文提出的Mixed-CoT-RL模型在干净问题上与标准RL相匹配(41% vs 41%),同时在预先填充了有缺陷推理的问题上显著优于它(24% vs 19%)。值得注意的是,仅使用干净数据进行RL微调会降低鲁棒性,低于未调整的基线(19% vs. 20%),表明传统训练会增加对误导性前缀的敏感性。在错误类型中,仅训练推理错误比仅训练计算错误产生更大的鲁棒性增益,而混合训练表现最佳。这些发现表明,在训练期间暴露于有缺陷的轨迹可以提高错误恢复行为,而不会牺牲准确性,从而为LLM中更强大的数学推理提供了一条途径。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在数学推理中对早期错误的敏感性问题。现有方法,如标准的思维链(CoT)提示,虽然提高了性能,但模型一旦在推理的早期步骤中出现错误(例如,算术错误或逻辑错误),这些错误往往会传播到最终答案,导致错误的结果。这种对早期错误的脆弱性限制了模型在复杂数学问题上的可靠性。

核心思路:论文的核心思路是通过让模型接触并学习如何处理“有缺陷”的推理过程,来提高模型的容错性和鲁棒性。具体来说,作者认为,如果模型能够识别并纠正推理过程中的错误,那么即使在早期步骤中出现错误,模型仍然有可能得到正确的最终答案。因此,论文通过在训练数据中引入包含有意错误的推理轨迹,来训练模型识别和纠正这些错误。

技术框架:整体框架包括以下几个主要步骤:1) 数据生成:使用MATH-lighteval数据集生成数学问题。2) CoT前缀生成:为每个问题生成思维链(CoT)推理过程,并在其中引入一个受控错误(计算错误或推理错误)。3) 模型微调:使用生成的包含错误的CoT数据,对Qwen3-4B模型进行微调。微调使用GRPO(Gradient Ratio Policy Optimization)算法,并使用二元最终答案奖励。4) 评估:在干净问题和包含错误的问题上评估微调后的模型性能。

关键创新:该论文的关键创新在于提出了一种通过在训练数据中引入“有缺陷”的推理轨迹来提高大型语言模型容错性的方法。与传统的训练方法不同,该方法不仅让模型学习正确的推理过程,还让模型学习如何识别和纠正推理过程中的错误。这种方法可以显著提高模型在实际应用中的鲁棒性和可靠性。

关键设计:在数据生成方面,论文精心设计了两种类型的错误:计算错误(如符号翻转、丢项)和推理错误(如误用规则、无根据的逻辑步骤)。在模型微调方面,论文使用了GRPO算法,并使用二元最终答案奖励。此外,论文还比较了不同类型的错误对模型性能的影响,发现训练推理错误比训练计算错误产生更大的鲁棒性增益,而混合训练表现最佳。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用混合缺陷推理训练的Mixed-CoT-RL模型在干净问题上与标准RL性能持平(41% vs 41%),但在包含缺陷推理的问题上显著优于标准RL(24% vs 19%)。更重要的是,仅使用干净数据进行RL微调反而会降低模型的鲁棒性(19% vs. 20%),表明本文提出的方法能够有效提升模型的容错能力。

🎯 应用场景

该研究成果可应用于提升大语言模型在数学、科学、工程等领域的推理能力,尤其是在需要高可靠性的场景中。通过提高模型的容错性,可以减少因早期错误导致的最终结果偏差,增强模型在复杂问题解决中的实用价值。此外,该方法也为其他领域的模型训练提供了借鉴,例如自然语言理解、代码生成等。

📄 摘要(原文)

Chain-of-thought (CoT) prompting has become central to mathematical reasoning in large language models, yet models remain brittle to early errors: a single arithmetic slip or unjustified inference typically propagates uncorrected to an incorrect final answer. We investigate whether training on intentionally flawed reasoning traces can teach models to detect and recover from such errors without degrading standard problem-solving ability. Using competition-level problems from MATH-lighteval, we generate CoT prefixes containing exactly one controlled error, either a calculation error (sign flips, dropped terms) or a reasoning error (misapplied rules, unjustified logical steps), and fine-tune Qwen3-4B with GRPO using a binary final-answer reward. Our Mixed-CoT-RL model matches standard RL on clean problems (41% vs 41%) while substantially outperforming it on problems prefilled with flawed reasoning (24% vs 19%). Notably, clean-only RL fine-tuning degrades robustness below the untuned baseline 19% vs. 20%), indicating that conventional training increases susceptibility to misleading prefills. Among error types, training on reasoning errors yields greater robustness gains than calculation errors alone, with mixed training performing best. These findings demonstrate that exposure to flawed traces during training can improve error-recovery behavior without sacrificing accuracy, suggesting a path toward more robust mathematical reasoning in LLMs.