ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

作者: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong

分类: cs.CL

发布日期: 2024-04-03

🔗 代码/项目: GITHUB

💡 一句话要点

提出自我批评管道以提升大语言模型的数学问题解决能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数学问题解决 自我批评 反馈学习 拒绝微调 偏好优化 ChatGLM

📋 核心要点

现有的大语言模型在数学问题解决上存在显著不足，难以同时提升语言和数学能力。
论文提出自我批评管道，通过训练数学批评模型来提供反馈，结合拒绝微调和偏好优化进行数据收集。
实验结果显示，该方法在数学问题解决能力上有显著提升，同时保持了语言能力的改善，超越了更大规模的模型。

📝 摘要（中文）

大型语言模型（LLMs）在掌握人类语言方面表现出色，但在需要数学问题解决的实际应用中仍面临挑战。尽管已有多种策略和数据集用于增强LLMs的数学能力，但在部署的LLM系统中同时保持和提升语言与数学能力仍然是一个难题。本研究提出了一种自我批评管道，旨在解决LLM对齐反馈学习阶段的挑战。我们首先从LLM本身训练出一个通用的数学批评模型以提供反馈信号。然后，依次采用拒绝微调和直接偏好优化的方法对LLM自身生成的数据进行收集。基于ChatGLM3-32B，我们在学术数据集和新创建的挑战性数据集MathUserEval上进行了系列实验。结果表明，该管道显著提升了LLM的数学问题解决能力，同时改善了其语言能力，超越了规模可能是其两倍的LLMs。

🔬 方法详解

问题定义：本论文旨在解决大型语言模型在数学问题解决中的不足，尤其是在保持语言能力的同时提升数学能力的挑战。现有方法往往无法有效兼顾这两方面的提升。

核心思路：论文提出的自我批评管道通过训练一个数学批评模型，利用其反馈信号来指导LLM的学习过程，从而实现对数学能力的增强。

技术框架：整体架构包括三个主要模块：首先是训练数学批评模型，其次是通过拒绝微调对LLM生成的内容进行优化，最后是直接偏好优化以收集数据。

关键创新：最重要的创新在于自我批评管道的设计，使得LLM能够在生成过程中自我评估并改进，从而实现语言与数学能力的双重提升。这一方法与传统的单一优化方法有本质区别。

关键设计：在模型训练中，采用了特定的损失函数以平衡语言和数学能力的提升，同时在网络结构上进行了优化，以适应自我批评的需求。

📊 实验亮点

实验结果表明，使用自我批评管道的模型在数学问题解决能力上显著优于传统LLM，且在语言能力上也有提升。具体而言，该模型在新创建的MathUserEval数据集上表现出色，超越了规模可能是其两倍的其他LLM，显示出该方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括教育、智能辅导系统和自动化数学问题解决工具。通过提升大语言模型的数学能力，可以为学生提供更有效的学习支持，促进教育公平。同时，该技术也可用于科学研究和工程计算等领域，具有广泛的实际价值和未来影响。

📄 摘要（原文）

Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs' mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM's own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM's mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\footnote{\url{https://chatglm.cn}}, an online serving LLM. Related evaluation dataset and scripts are released at \url{https://github.com/THUDM/ChatGLM-Math}.

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理