MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

📄 arXiv: 2508.05592v2 📥 PDF

作者: Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tan

分类: cs.CL

发布日期: 2025-08-07 (更新: 2025-08-11)


💡 一句话要点

MathSmith:通过强化策略合成高难度数学问题,提升LLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 大型语言模型 数据合成 强化学习 问题生成 长链思维 PlanetMath

📋 核心要点

  1. 现有数学问题合成方法依赖人工模板,缺乏多样性和可扩展性,难以生成高难度问题。
  2. MathSmith从头构建数学问题,利用强化学习优化结构、推理复杂度和答案一致性,提升问题难度。
  3. 实验表明,MathSmith在多个难度级别的基准测试中均优于现有方法,展现出良好的泛化能力。

📝 摘要(中文)

大型语言模型在数学推理方面取得了显著进展,但高质量、高难度训练数据的稀缺性限制了其发展。现有的合成方法主要依赖于转换人工编写的模板,限制了多样性和可扩展性。我们提出了MathSmith,这是一个用于合成具有挑战性的数学问题以增强LLM推理的新框架。MathSmith不是修改现有问题,而是通过从PlanetMath随机抽样概念-解释对来从头开始构建新问题,确保数据独立性并避免污染。为了增加难度,我们在推理过程中设计了九种预定义的策略作为软约束。我们进一步采用强化学习来共同优化结构有效性、推理复杂性和答案一致性。在自回归提示下生成的推理轨迹的长度被用来反映认知复杂性,鼓励创建与长链思维推理相一致的更具挑战性的问题。在五个基准测试(分为简单和中等难度(GSM8K、MATH-500)和高难度(AIME2024、AIME2025、OlympiadBench))上的实验表明,在短CoT和长CoT设置下,MathSmith始终优于现有的基线。此外,一个以弱点为中心的变体生成模块能够有针对性地改进特定概念。总的来说,MathSmith表现出强大的可扩展性、泛化性和可迁移性,突出了高难度合成数据在提升LLM推理能力方面的潜力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在数学推理方面面临的挑战,即缺乏高质量、高难度的训练数据。现有方法主要依赖于修改或转换人工编写的模板,这限制了问题的多样性和可扩展性,难以生成真正具有挑战性的数学问题。因此,LLM的推理能力提升受到限制。

核心思路:MathSmith的核心思路是从头开始合成数学问题,而不是修改现有问题。通过从PlanetMath等知识库中随机抽样概念-解释对,构建新的问题,确保数据的独立性,避免数据污染。同时,利用强化学习来优化问题的结构有效性、推理复杂性和答案一致性,从而生成更具挑战性的问题。

技术框架:MathSmith的整体框架包括以下几个主要模块:1) 概念-解释对抽样:从PlanetMath等知识库中随机抽样概念和对应的解释。2) 问题构建:利用抽样的概念和解释,构建数学问题。3) 推理策略:应用预定义的推理策略(如归纳、演绎等)来增加问题的推理复杂度。4) 强化学习优化:使用强化学习算法,根据问题的结构有效性、推理复杂性和答案一致性来优化问题生成过程。5) 弱点聚焦变体生成:针对LLM在特定概念上的弱点,生成该概念相关的变体问题。

关键创新:MathSmith的关键创新在于其从头开始合成数学问题的方法,以及利用强化学习来优化问题难度和质量。与现有方法相比,MathSmith不依赖于人工模板,能够生成更多样化、更具挑战性的问题。此外,强化学习的引入使得问题生成过程能够自动适应LLM的推理能力,生成更有效的训练数据。

关键设计:MathSmith的关键设计包括:1) 九种预定义的推理策略:这些策略作为软约束,引导问题生成过程,增加推理复杂度。2) 基于推理轨迹长度的奖励函数:使用LLM在自回归提示下生成的推理轨迹的长度来反映认知复杂性,鼓励生成需要更长链式思维的问题。3) 强化学习算法:采用合适的强化学习算法(具体算法未知)来优化问题生成策略,平衡结构有效性、推理复杂性和答案一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MathSmith在GSM8K、MATH-500、AIME2024、AIME2025和OlympiadBench等五个基准测试中,均优于现有基线方法。在长链思维(Long CoT)设置下,MathSmith的性能提升尤为显著,表明其生成的高难度问题能够有效提升LLM的推理能力。此外,弱点聚焦变体生成模块能够针对性地改进LLM在特定概念上的表现。

🎯 应用场景

MathSmith生成的合成数据可用于训练和微调大型语言模型,提升其在数学、科学等领域的推理能力。该方法可应用于教育领域,生成个性化、自适应的练习题,帮助学生提高数学水平。此外,该技术还可用于评估和诊断LLM的推理能力,发现其潜在的弱点。

📄 摘要(原文)

Large language models have achieved substantial progress in mathematical reasoning, yet their advancement is limited by the scarcity of high-quality, high-difficulty training data. Existing synthesis methods largely rely on transforming human-written templates, limiting both diversity and scalability. We propose MathSmith, a novel framework for synthesizing challenging mathematical problems to enhance LLM reasoning. Rather than modifying existing problems, MathSmith constructs new ones from scratch by randomly sampling concept-explanation pairs from PlanetMath, ensuring data independence and avoiding contamination. To increase difficulty, we design nine predefined strategies as soft constraints during rationales. We further adopts reinforcement learning to jointly optimize structural validity, reasoning complexity, and answer consistency. The length of the reasoning trace generated under autoregressive prompting is used to reflect cognitive complexity, encouraging the creation of more demanding problems aligned with long-chain-of-thought reasoning. Experiments across five benchmarks, categorized as easy & medium (GSM8K, MATH-500) and hard (AIME2024, AIME2025, OlympiadBench), show that MathSmith consistently outperforms existing baselines under both short and long CoT settings. Additionally, a weakness-focused variant generation module enables targeted improvement on specific concepts. Overall, MathSmith exhibits strong scalability, generalization, and transferability, highlighting the promise of high-difficulty synthetic data in advancing LLM reasoning capabilities.