MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion

📄 arXiv: 2503.16212v2 📥 PDF

作者: Qizhi Pei, Lijun Wu, Zhuoshi Pan, Yu Li, Honglin Lin, Chenlin Ming, Xin Gao, Conghui He, Rui Yan

分类: cs.CL, cs.AI

发布日期: 2025-03-20 (更新: 2025-06-16)

备注: Accepted by ACL 2025 (main)

🔗 代码/项目: GITHUB


💡 一句话要点

MathFusion:通过指令融合增强LLM的数学问题求解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 大型语言模型 指令融合 数据增强 问题求解 知识表示 模型微调

📋 核心要点

  1. 现有数学问题求解的数据增强方法局限于实例级别修改,忽略了数学知识内在的关系结构。
  2. MathFusion通过顺序、并行和条件融合策略,合成跨问题的指令,模拟人类学习过程,增强LLM的数学推理能力。
  3. 实验表明,MathFusion仅需少量额外指令,即可显著提升LLM在数学基准测试中的准确率,数据效率高。

📝 摘要(中文)

大型语言模型(LLMs)在数学推理方面表现出令人瞩目的进展。虽然数据增强有望提高数学问题求解能力,但当前的方法主要局限于实例级别的修改,例如释义或生成句法变体,而未能捕捉和利用数学知识中固有的内在关系结构。受到人类学习过程的启发,即数学能力是通过系统地接触相互关联的概念而发展的,我们引入了MathFusion,这是一个新颖的框架,通过跨问题指令合成来增强数学推理。MathFusion通过三种融合策略实现这一点:(1)顺序融合,将相关问题链接起来以模拟解决方案依赖性;(2)并行融合,结合类似的问题以加强概念理解;(3)条件融合,创建上下文感知的选择性问题以增强推理灵活性。通过应用这些策略,我们生成了一个新的数据集MathFusionQA,然后对其进行微调模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)。实验结果表明,MathFusion在数学推理方面取得了显著的改进,同时保持了高数据效率,在不同的基准测试中,准确率提高了18.0个百分点,而只需要45K个额外的合成指令,这代表了对传统单指令方法的重大改进。我们的数据集、模型和代码已在https://github.com/QizhiPei/mathfusion上公开发布。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在数学问题求解中,由于缺乏对数学知识内在关系结构的有效利用,导致推理能力受限的问题。现有数据增强方法主要集中在实例级别的修改,例如释义或生成句法变体,无法充分挖掘和利用数学概念之间的关联性。

核心思路:论文的核心思路是模拟人类学习数学的过程,通过系统地接触和理解相互关联的数学概念来提高LLM的数学推理能力。为此,论文提出了MathFusion框架,该框架通过跨问题指令合成来增强LLM对数学知识内在关系结构的理解和利用。

技术框架:MathFusion框架包含三个主要的融合策略:顺序融合、并行融合和条件融合。顺序融合将相关问题链接起来,模拟解决方案的依赖关系;并行融合结合类似的问题,加强概念理解;条件融合创建上下文感知的选择性问题,增强推理灵活性。通过这三种融合策略,生成新的数据集MathFusionQA,并使用该数据集对LLM进行微调。

关键创新:MathFusion的关键创新在于其跨问题指令合成的思想,它不同于传统的实例级别数据增强方法,而是通过融合多个相关问题的信息来增强LLM对数学知识内在关系结构的理解。这种方法更符合人类学习数学的认知过程,能够更有效地提高LLM的数学推理能力。

关键设计:论文的关键设计在于三种融合策略的具体实现。顺序融合通过将相关问题按照一定的逻辑顺序连接起来,形成一个问题链,让LLM学习如何利用前面的问题的解题思路来解决后面的问题。并行融合通过将多个类似的问题放在一起,让LLM对比分析这些问题,从而更好地理解这些问题所涉及的数学概念。条件融合则根据不同的上下文信息,选择性地呈现不同的问题,让LLM学习如何在不同的情境下应用不同的解题策略。论文使用DeepSeekMath-7B、Mistral-7B、Llama3-8B等模型进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MathFusion在数学推理方面取得了显著的改进,在不同的基准测试中,准确率提高了18.0个百分点,而只需要45K个额外的合成指令。这表明MathFusion具有很高的数据效率,能够以较小的代价显著提升LLM的数学推理能力。相较于传统单指令方法,MathFusion展现出巨大的优势。

🎯 应用场景

MathFusion的研究成果可应用于提升各种LLM在数学、科学、工程等领域的推理能力,尤其是在需要复杂逻辑和多步骤计算的场景下。该方法可以帮助LLM更好地理解和解决实际问题,例如自动化定理证明、科学发现、工程设计等,具有广泛的应用前景。

📄 摘要(原文)

Large Language Models (LLMs) have shown impressive progress in mathematical reasoning. While data augmentation is promising to enhance mathematical problem-solving ability, current approaches are predominantly limited to instance-level modifications-such as rephrasing or generating syntactic variations-which fail to capture and leverage the intrinsic relational structures inherent in mathematical knowledge. Inspired by human learning processes, where mathematical proficiency develops through systematic exposure to interconnected concepts, we introduce MathFusion, a novel framework that enhances mathematical reasoning through cross-problem instruction synthesis. MathFusion implements this through three fusion strategies: (1) sequential fusion, which chains related problems to model solution dependencies; (2) parallel fusion, which combines analogous problems to reinforce conceptual understanding; and (3) conditional fusion, which creates context-aware selective problems to enhance reasoning flexibility. By applying these strategies, we generate a new dataset, \textbf{MathFusionQA}, followed by fine-tuning models (DeepSeekMath-7B, Mistral-7B, Llama3-8B) on it. Experimental results demonstrate that MathFusion achieves substantial improvements in mathematical reasoning while maintaining high data efficiency, boosting performance by 18.0 points in accuracy across diverse benchmarks while requiring only 45K additional synthetic instructions, representing a substantial improvement over traditional single-instruction approaches. Our datasets, models, and code are publicly available at https://github.com/QizhiPei/mathfusion.