SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models

作者: Dian Yu, Baolin Peng, Ye Tian, Linfeng Song, Haitao Mi, Dong Yu

分类: cs.CL

发布日期: 2024-08-28

💡 一句话要点

提出SIaM，利用代码辅助的大语言模型实现数学推理能力的自我提升

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数学推理 代码辅助 自我提升 代码评论模型

📋 核心要点

现有方法依赖于闭源模型生成数据并进行数据增强，但泛化能力受限，无法充分利用大规模专家数据。
SIaM利用代码评论模型指导数据构建、质量控制和评估，并探索对齐算法以实现持续改进。
实验结果表明，SIaM在领域内和领域外基准测试中均取得了显著提升，验证了其有效性。

📝 摘要（中文）

本文提出了一种新的范式，旨在利用大规模、专家编写的、多样化的数学问题-答案对来提升大语言模型（LLM）的数学推理能力。现有研究主要集中于提示强大的闭源模型生成种子训练数据，然后进行领域内数据增强，使LLM具备相当程度的代码辅助数学推理能力。然而，持续在从少量数据集（如GSM8K）衍生的增强数据上训练这些模型可能会损害其泛化能力，并限制其有效性于狭窄的问题类型。为了利用这些资源并解决代码响应评估等独特挑战，我们使用基于代码的评论模型来指导包括问题-代码数据构建、质量控制和补充评估等步骤。我们还探索了不同的对齐算法，利用自我生成的指令/偏好数据来促进持续改进。在英语和中文的领域内（最高+5.7%）和领域外（+4.4%）基准测试中的实验证明了所提出范式的有效性。

🔬 方法详解

问题定义：现有的大语言模型在解决数学问题时，过度依赖于少量数据集（如GSM8K）的增强数据进行训练，导致模型泛化能力不足，只能解决特定类型的问题。此外，如何有效利用大规模、专家编写的数学问题-答案对，以及如何评估代码形式的答案，也是一个挑战。

核心思路：SIaM的核心思路是利用一个基于代码的评论模型（Code-based Critic Model）来指导整个训练流程，包括数据构建、质量控制和评估。通过这种方式，可以更有效地利用大规模的专家数据，并解决代码答案的评估问题，从而提升模型的数学推理能力。

技术框架：SIaM的整体框架包含以下几个主要阶段：1) 问题-代码数据构建：利用大语言模型生成数学问题的代码解答。2) 质量控制：使用代码评论模型对生成的代码解答进行评估和筛选，确保数据的质量。3) 补充评估：对筛选后的数据进行补充评估，进一步提高数据的可靠性。4) 模型训练：使用高质量的数据训练大语言模型，提升其数学推理能力。5) 持续改进：利用自我生成的指令/偏好数据，通过不同的对齐算法，实现模型的持续改进。

关键创新：SIaM的关键创新在于引入了代码评论模型来指导整个训练流程。与以往方法不同，SIaM不仅仅依赖于人工标注或简单的规则来评估代码答案，而是利用一个专门训练的代码评论模型，能够更准确地评估代码的质量和正确性。此外，SIaM还探索了不同的对齐算法，以实现模型的持续改进。

关键设计：代码评论模型的设计细节未知，但推测其可能基于代码的执行结果、代码风格、逻辑正确性等方面进行评估。对齐算法的具体选择也未知，但可能包括基于强化学习的对齐方法，例如Proximal Policy Optimization (PPO) 或 Direct Preference Optimization (DPO)。损失函数的设计也未知，但推测可能包括代码正确性的损失、代码风格的损失等。

🖼️ 关键图片

📊 实验亮点

SIaM在领域内（GSM8K）和领域外基准测试中均取得了显著提升。在领域内，性能提升高达5.7%。在领域外，性能提升高达4.4%。这些结果表明，SIaM具有良好的泛化能力和鲁棒性，能够有效提升大语言模型的数学推理能力。

🎯 应用场景

SIaM可应用于教育领域，辅助学生进行数学学习，提供个性化的解题指导。在科研领域，可用于验证数学猜想，加速科学发现。此外，还可应用于金融、工程等领域，解决复杂的数学建模问题，提高决策效率。

📄 摘要（原文）

There is a growing trend of teaching large language models (LLMs) to solve mathematical problems through coding. Existing studies primarily focus on prompting powerful, closed-source models to generate seed training data followed by in-domain data augmentation, equipping LLMs with considerable capabilities for code-aided mathematical reasoning. However, continually training these models on augmented data derived from a few datasets such as GSM8K may impair their generalization abilities and restrict their effectiveness to a narrow range of question types. Conversely, the potential of improving such LLMs by leveraging large-scale, expert-written, diverse math question-answer pairs remains unexplored. To utilize these resources and tackle unique challenges such as code response assessment, we propose a novel paradigm that uses a code-based critic model to guide steps including question-code data construction, quality control, and complementary evaluation. We also explore different alignment algorithms with self-generated instruction/preference data to foster continuous improvement. Experiments across both in-domain (up to +5.7%) and out-of-domain (+4.4%) benchmarks in English and Chinese demonstrate the effectiveness of the proposed paradigm.

SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理