System-2 Mathematical Reasoning via Enriched Instruction Tuning

📄 arXiv: 2412.16964v2 📥 PDF

作者: Huanqia Cai, Yijun Yang, Zhifeng Li

分类: cs.AI, cs.CL

发布日期: 2024-12-22 (更新: 2024-12-24)


💡 一句话要点

提出Enriched Instruction Tuning,提升LLM在复杂数学推理中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 指令微调 大型语言模型 数据增强 多步推理

📋 核心要点

  1. 现有LLM在复杂数学推理中面临挑战,主要原因是缺乏高质量的多步推理数据。
  2. EIT方法通过协同人类和AI反馈,丰富数学数据集,生成细粒度的推理轨迹,用于LLM微调。
  3. 实验结果表明,EIT显著提升了LLM在GSM8K和MATH数据集上的数学推理准确率。

📝 摘要(中文)

本文针对大型语言模型(LLM)在复杂数学问题中进行系统二推理的挑战,指出缺乏有意的多步推理数据是主要限制因素。为此,提出了Enriched Instruction Tuning (EIT)方法,通过协同人类和AI反馈来丰富现有的数学数据集,从而创建细粒度的推理轨迹。这些数据集用于微调开源LLM,增强其数学推理能力,无需依赖任何符号验证程序。EIT包含两个关键步骤:Enriching with Reasoning Plan (ERP),生成高级计划,将复杂指令分解为一系列更简单的目标;Enriching with Reasoning Step (ERS),填补人类标注者经常忽略的推理上下文,为LLM微调创建更流畅的推理轨迹。与仅依赖LLM内部知识生成推理链的CoT提示方法不同,EIT利用人工标注的初始答案作为“元知识”,帮助LLM生成更详细和精确的推理过程。实验表明,EIT在GSM8K上达到84.1%的准确率,在MATH上达到32.5%的准确率,超过了最先进的微调和提示方法,甚至与工具增强方法的性能相匹配。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在复杂数学问题求解中推理能力不足的问题。现有的LLM在处理需要多步推理的数学问题时,往往表现不佳,主要痛点在于缺乏足够的高质量训练数据,特别是能够体现人类思考过程的细粒度推理步骤数据。

核心思路:论文的核心思路是通过Enriched Instruction Tuning (EIT)方法,利用人类和AI的协同反馈,对现有的数学数据集进行增强,生成包含详细推理计划和步骤的训练数据。这种方法旨在模仿人类解决复杂数学问题的过程,从而提高LLM的推理能力。

技术框架:EIT方法包含两个主要阶段:Enriching with Reasoning Plan (ERP)和Enriching with Reasoning Step (ERS)。ERP阶段首先生成一个高级的推理计划,将复杂的数学问题分解为一系列更简单的子目标。ERS阶段则进一步填充推理步骤,补充人类标注者可能忽略的推理细节,从而创建一个更完整、更流畅的推理轨迹。最终,使用增强后的数据集对LLM进行微调。

关键创新:EIT的关键创新在于其数据增强方式,它不是简单地生成更多的推理链,而是通过协同人类和AI的反馈,确保生成的推理过程既具有逻辑性,又符合人类的思考习惯。此外,EIT利用人工标注的初始答案作为“元知识”,引导LLM生成更精确的推理过程,这与传统的CoT方法不同,后者仅依赖LLM自身的知识。

关键设计:在ERP阶段,可以使用LLM生成多个推理计划,然后由人类专家进行筛选和修改,以确保计划的合理性和可行性。在ERS阶段,可以利用LLM生成推理步骤,并结合人类的反馈进行修正,以提高推理步骤的准确性和完整性。具体的损失函数和网络结构选择取决于所使用的LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EIT方法在GSM8K数据集上达到了84.1%的准确率,在MATH数据集上达到了32.5%的准确率。相较于现有的微调和提示方法,EIT取得了显著的性能提升,甚至可以与一些工具增强的方法相媲美。这些结果表明,EIT是一种有效的提升LLM数学推理能力的方法。

🎯 应用场景

该研究成果可应用于智能教育、自动化问题求解、智能客服等领域。通过提升LLM的数学推理能力,可以开发更智能的辅导系统,帮助学生理解和解决复杂的数学问题。此外,该方法还可以应用于其他需要复杂推理的领域,例如金融分析、法律咨询等,提高自动化问题求解的效率和准确性。

📄 摘要(原文)

Solving complex mathematical problems via system-2 reasoning is a natural human skill, yet it remains a significant challenge for current large language models (LLMs). We identify the scarcity of deliberate multi-step reasoning data as a primary limiting factor. To this end, we introduce Enriched Instruction Tuning (EIT), a method that enriches existing human-annotated mathematical datasets by synergizing human and AI feedback to create fine-grained reasoning trajectories. These datasets are then used to fine-tune open-source LLMs, enhancing their mathematical reasoning abilities without reliance on any symbolic verification program. Concretely, EIT is composed of two critical steps: Enriching with Reasoning Plan (ERP) and Enriching with Reasoning Step (ERS). The former generates a high-level plan that breaks down complex instructions into a sequence of simpler objectives, while ERS fills in reasoning contexts often overlooked by human annotators, creating a smoother reasoning trajectory for LLM fine-tuning. Unlike existing CoT prompting methods that generate reasoning chains only depending on LLM's internal knowledge, our method leverages human-annotated initial answers as ``meta-knowledge'' to help LLMs generate more detailed and precise reasoning processes, leading to a more trustworthy LLM expert for complex mathematical problems. In experiments, EIT achieves an accuracy of 84.1% on GSM8K and 32.5% on MATH, surpassing state-of-the-art fine-tuning and prompting methods, and even matching the performance of tool-augmented methods.