ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
作者: Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
分类: cs.CL
发布日期: 2024-04-03
🔗 代码/项目: GITHUB
💡 一句话要点
提出自我批评管道以提升大语言模型的数学问题解决能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 数学问题解决 自我批评 反馈学习 拒绝微调 偏好优化 ChatGLM
📋 核心要点
- 现有的大语言模型在数学问题解决上存在显著不足,难以同时提升语言和数学能力。
- 论文提出自我批评管道,通过训练数学批评模型来提供反馈,结合拒绝微调和偏好优化进行数据收集。
- 实验结果显示,该方法在数学问题解决能力上有显著提升,同时保持了语言能力的改善,超越了更大规模的模型。
📝 摘要(中文)
大型语言模型(LLMs)在掌握人类语言方面表现出色,但在需要数学问题解决的实际应用中仍面临挑战。尽管已有多种策略和数据集用于增强LLMs的数学能力,但在部署的LLM系统中同时保持和提升语言与数学能力仍然是一个难题。本研究提出了一种自我批评管道,旨在解决LLM对齐反馈学习阶段的挑战。我们首先从LLM本身训练出一个通用的数学批评模型以提供反馈信号。然后,依次采用拒绝微调和直接偏好优化的方法对LLM自身生成的数据进行收集。基于ChatGLM3-32B,我们在学术数据集和新创建的挑战性数据集MathUserEval上进行了系列实验。结果表明,该管道显著提升了LLM的数学问题解决能力,同时改善了其语言能力,超越了规模可能是其两倍的LLMs。
🔬 方法详解
问题定义:本论文旨在解决大型语言模型在数学问题解决中的不足,尤其是在保持语言能力的同时提升数学能力的挑战。现有方法往往无法有效兼顾这两方面的提升。
核心思路:论文提出的自我批评管道通过训练一个数学批评模型,利用其反馈信号来指导LLM的学习过程,从而实现对数学能力的增强。
技术框架:整体架构包括三个主要模块:首先是训练数学批评模型,其次是通过拒绝微调对LLM生成的内容进行优化,最后是直接偏好优化以收集数据。
关键创新:最重要的创新在于自我批评管道的设计,使得LLM能够在生成过程中自我评估并改进,从而实现语言与数学能力的双重提升。这一方法与传统的单一优化方法有本质区别。
关键设计:在模型训练中,采用了特定的损失函数以平衡语言和数学能力的提升,同时在网络结构上进行了优化,以适应自我批评的需求。
📊 实验亮点
实验结果表明,使用自我批评管道的模型在数学问题解决能力上显著优于传统LLM,且在语言能力上也有提升。具体而言,该模型在新创建的MathUserEval数据集上表现出色,超越了规模可能是其两倍的其他LLM,显示出该方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括教育、智能辅导系统和自动化数学问题解决工具。通过提升大语言模型的数学能力,可以为学生提供更有效的学习支持,促进教育公平。同时,该技术也可用于科学研究和工程计算等领域,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs' mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM's own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM's mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\footnote{\url{https://chatglm.cn}}, an online serving LLM. Related evaluation dataset and scripts are released at \url{https://github.com/THUDM/ChatGLM-Math}.