Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of LLMs

📄 arXiv: 2312.17535v1 📥 PDF

作者: Shaojie Zhu, Zhaobin Wang, Chengxiang Zhuo, Hui Lu, Bo Hu, Zang Li

分类: cs.AI, cs.CL, cs.HC

发布日期: 2023-12-29

备注: 10 pages, 1 figures


💡 一句话要点

Olapa-MCoT:提升LLM中文数学推理能力,基于Llama2-13B微调与对齐学习。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文数学推理 LLM Llama2-13B 微调 对齐学习 SimRRHF 错误数据重学习

📋 核心要点

  1. 现有LLM在中文数学推理方面存在不足,需要针对性地进行优化。
  2. Olapa-MCoT通过微调和对齐学习,并引入SimRRHF算法和错误数据重学习策略来提升中文数学推理能力。
  3. 实验表明,Olapa-MCoT在中文数学推理准确率上取得了显著提升,同时英文推理能力也得到增强。

📝 摘要(中文)

本文提出了Olapa-MCoT,一个基于Llama2-13B预训练语言模型进行微调和对齐学习的LLM,旨在提升其中文数学推理能力。在对齐训练过程中,论文提出了SimRRHF算法和错误数据重学习策略,专注于优化Olapa-MCoT的中文数学推理能力。实验结果表明,该方法取得了显著效果,中文数学推理的准确率达到了50%,相比Llama2-13B提升了36%。此外,英文推理能力也提升了近4%。

🔬 方法详解

问题定义:论文旨在解决LLM在中文数学推理任务中准确率低的问题。现有方法在处理中文数学问题时,由于语言特性和知识背景的差异,往往表现不佳,难以达到令人满意的推理效果。

核心思路:论文的核心思路是通过对Llama2-13B进行微调和对齐学习,使其更好地适应中文数学推理任务。通过引入SimRRHF算法和错误数据重学习策略,进一步优化模型的推理能力,使其能够更准确地理解和解决中文数学问题。

技术框架:Olapa-MCoT的整体框架包括预训练语言模型(Llama2-13B)、微调阶段和对齐学习阶段。在微调阶段,使用中文数学推理数据集对Llama2-13B进行训练,使其初步具备中文数学推理能力。在对齐学习阶段,使用SimRRHF算法和错误数据重学习策略,进一步优化模型的推理能力。

关键创新:论文的关键创新在于提出了SimRRHF算法和错误数据重学习策略。SimRRHF算法旨在提高模型在推理过程中的一致性和可靠性。错误数据重学习策略则通过对模型在训练过程中犯的错误进行分析和纠正,从而提高模型的泛化能力。

关键设计:SimRRHF算法的具体实现细节未知。错误数据重学习策略的具体实现细节也未知。论文中可能涉及损失函数的设计,但摘要中未提及。

📊 实验亮点

Olapa-MCoT在中文数学推理任务中取得了显著的实验结果,准确率达到了50%,相比Llama2-13B提升了36%。此外,英文推理能力也提升了近4%。这些结果表明,该方法能够有效地提升LLM在中文数学推理方面的能力,具有重要的研究价值和应用前景。

🎯 应用场景

Olapa-MCoT的潜在应用领域包括智能教育、数学辅助工具、智能客服等。它可以帮助学生更好地理解和解决数学问题,提高学习效率。在智能客服领域,它可以用于回答用户提出的数学问题,提供更专业的服务。未来,该研究可以进一步扩展到其他中文推理任务,提升LLM在中文环境下的应用能力。

📄 摘要(原文)

CoT (Chain-of-Thought) is a way to solve reasoning problems for LLMs . Recently, many researches appear for improving the CoT capability of LLMs. In this work, we also proposed Olapa-MCoT, which is a LLMs based on llama2-13B PLM for finetuning and alignment learning. During the alignment training, we proposed the SimRRHF algorithm and Incorrect Data Relearning and mainly focused on optimizing the Chinese mathematical reasoning ability of Olapa-MCoT. The experiment achieved significant results, with the accuracy of Chinese mathematical reasoning up to 50%, 36% rise compared to llama2-13B. In addition, the accuracy of English reasoning ability also increased by nearly 4%.