SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models

📄 arXiv: 2408.15565v1 📥 PDF

作者: Dian Yu, Baolin Peng, Ye Tian, Linfeng Song, Haitao Mi, Dong Yu

分类: cs.CL

发布日期: 2024-08-28


💡 一句话要点

提出SIaM,利用代码辅助的大语言模型实现数学推理能力的自我提升

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数学推理 代码辅助 自我提升 代码评论模型

📋 核心要点

  1. 现有方法依赖于闭源模型生成数据并进行数据增强,但泛化能力受限,无法充分利用大规模专家数据。
  2. SIaM利用代码评论模型指导数据构建、质量控制和评估,并探索对齐算法以实现持续改进。
  3. 实验结果表明,SIaM在领域内和领域外基准测试中均取得了显著提升,验证了其有效性。

📝 摘要(中文)

本文提出了一种新的范式,旨在利用大规模、专家编写的、多样化的数学问题-答案对来提升大语言模型(LLM)的数学推理能力。现有研究主要集中于提示强大的闭源模型生成种子训练数据,然后进行领域内数据增强,使LLM具备相当程度的代码辅助数学推理能力。然而,持续在从少量数据集(如GSM8K)衍生的增强数据上训练这些模型可能会损害其泛化能力,并限制其有效性于狭窄的问题类型。为了利用这些资源并解决代码响应评估等独特挑战,我们使用基于代码的评论模型来指导包括问题-代码数据构建、质量控制和补充评估等步骤。我们还探索了不同的对齐算法,利用自我生成的指令/偏好数据来促进持续改进。在英语和中文的领域内(最高+5.7%)和领域外(+4.4%)基准测试中的实验证明了所提出范式的有效性。

🔬 方法详解

问题定义:现有的大语言模型在解决数学问题时,过度依赖于少量数据集(如GSM8K)的增强数据进行训练,导致模型泛化能力不足,只能解决特定类型的问题。此外,如何有效利用大规模、专家编写的数学问题-答案对,以及如何评估代码形式的答案,也是一个挑战。

核心思路:SIaM的核心思路是利用一个基于代码的评论模型(Code-based Critic Model)来指导整个训练流程,包括数据构建、质量控制和评估。通过这种方式,可以更有效地利用大规模的专家数据,并解决代码答案的评估问题,从而提升模型的数学推理能力。

技术框架:SIaM的整体框架包含以下几个主要阶段:1) 问题-代码数据构建:利用大语言模型生成数学问题的代码解答。2) 质量控制:使用代码评论模型对生成的代码解答进行评估和筛选,确保数据的质量。3) 补充评估:对筛选后的数据进行补充评估,进一步提高数据的可靠性。4) 模型训练:使用高质量的数据训练大语言模型,提升其数学推理能力。5) 持续改进:利用自我生成的指令/偏好数据,通过不同的对齐算法,实现模型的持续改进。

关键创新:SIaM的关键创新在于引入了代码评论模型来指导整个训练流程。与以往方法不同,SIaM不仅仅依赖于人工标注或简单的规则来评估代码答案,而是利用一个专门训练的代码评论模型,能够更准确地评估代码的质量和正确性。此外,SIaM还探索了不同的对齐算法,以实现模型的持续改进。

关键设计:代码评论模型的设计细节未知,但推测其可能基于代码的执行结果、代码风格、逻辑正确性等方面进行评估。对齐算法的具体选择也未知,但可能包括基于强化学习的对齐方法,例如Proximal Policy Optimization (PPO) 或 Direct Preference Optimization (DPO)。损失函数的设计也未知,但推测可能包括代码正确性的损失、代码风格的损失等。

🖼️ 关键图片

fig_0

📊 实验亮点

SIaM在领域内(GSM8K)和领域外基准测试中均取得了显著提升。在领域内,性能提升高达5.7%。在领域外,性能提升高达4.4%。这些结果表明,SIaM具有良好的泛化能力和鲁棒性,能够有效提升大语言模型的数学推理能力。

🎯 应用场景

SIaM可应用于教育领域,辅助学生进行数学学习,提供个性化的解题指导。在科研领域,可用于验证数学猜想,加速科学发现。此外,还可应用于金融、工程等领域,解决复杂的数学建模问题,提高决策效率。

📄 摘要(原文)

There is a growing trend of teaching large language models (LLMs) to solve mathematical problems through coding. Existing studies primarily focus on prompting powerful, closed-source models to generate seed training data followed by in-domain data augmentation, equipping LLMs with considerable capabilities for code-aided mathematical reasoning. However, continually training these models on augmented data derived from a few datasets such as GSM8K may impair their generalization abilities and restrict their effectiveness to a narrow range of question types. Conversely, the potential of improving such LLMs by leveraging large-scale, expert-written, diverse math question-answer pairs remains unexplored. To utilize these resources and tackle unique challenges such as code response assessment, we propose a novel paradigm that uses a code-based critic model to guide steps including question-code data construction, quality control, and complementary evaluation. We also explore different alignment algorithms with self-generated instruction/preference data to foster continuous improvement. Experiments across both in-domain (up to +5.7%) and out-of-domain (+4.4%) benchmarks in English and Chinese demonstrate the effectiveness of the proposed paradigm.