Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models

📄 arXiv: 2410.08068v1 📥 PDF

作者: Wenting Tan, Dongxiao Chen, Jieting Xue, Zihao Wang, Taijie Chen

分类: cs.CL, cs.AI

发布日期: 2024-10-10

🔗 代码/项目: GITHUB


💡 一句话要点

提出教学启发式集成提示框架,提升大语言模型算术推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 算术推理 提示工程 教学启发 知识迁移

📋 核心要点

  1. 现有提示方法在增强LLM算术推理能力方面有效,但忽略了问题求解所需的先验知识,如概念、定理和技巧。
  2. 论文提出教学启发式集成框架,模拟教师指导过程,为LLM提供必要的概念、定理和类似问题的解决方案。
  3. 实验结果表明,该方法显著提高了LLM在多个数学基准测试中的推理准确性,并在四个基准上取得了新的SOTA。

📝 摘要(中文)

大语言模型(LLMs)在各个领域表现出令人印象深刻的性能,但在算术推理任务中仍然存在困难。最近的研究表明,提示设计方法在增强推理能力方面是有效的。然而,这些方法忽略了成功解决大多数算术推理问题所需的特定概念、定理和技巧的先验知识。为了解决这个问题,我们提出了一种新颖有效的教学启发式集成框架,该框架模拟了教师指导学生的教学过程。该方法使LLMs具备必要的概念、相关定理以及具有类似解决方案的类似问题,从而促进推理能力的增强。此外,我们还引入了两个新的中文数据集MathMC和MathToF,两者都包含详细的解释和答案。在九个基准上进行的实验表明,我们的方法提高了LLMs的推理准确性。利用GPT-4和我们的框架,我们在四个数学基准(AddSub、SVAMP、Math23K和AQuA)上取得了新的state-of-the-art性能,准确率分别为98.2%(+3.3%)、93.9%(+0.2%)、94.3%(+7.2%)和81.1%(+1.2%)。我们的数据和代码可在https://github.com/SallyTan13/Teaching-Inspired-Prompting上获取。

🔬 方法详解

问题定义:论文旨在解决大语言模型在算术推理任务中表现不佳的问题。现有方法依赖于提示工程,但忽略了模型需要具备解决问题所需的特定概念、定理和技巧等先验知识,导致推理能力受限。

核心思路:论文的核心思路是模拟教师教学过程,通过向LLM提供必要的概念、相关定理以及具有类似解决方案的例题,来增强其推理能力。这种方法旨在弥补LLM在算术推理方面缺乏领域知识的不足。

技术框架:该框架主要包含以下几个阶段:1. 概念引入:向LLM提供与问题相关的数学概念的解释。2. 定理引入:提供解决问题所需的关键定理和公式。3. 相似问题示例:展示与当前问题相似的例题,并提供详细的解题步骤。4. 问题求解:利用前三个阶段提供的知识,引导LLM解决当前问题。整个过程通过精心设计的提示语来实现。

关键创新:该方法最重要的创新点在于将教学过程融入到提示工程中,使LLM能够像学生一样学习和应用知识。与传统的提示方法相比,该方法更加注重知识的传递和应用,而非仅仅依赖于模型的固有能力。此外,论文还构建了两个新的中文数学数据集,为该领域的研究提供了数据支持。

关键设计:框架的关键设计在于提示语的设计,需要确保LLM能够理解并应用提供的概念、定理和例题。具体的技术细节包括:1. 使用清晰简洁的语言解释数学概念和定理。2. 提供详细的例题解题步骤,并突出关键步骤。3. 使用一致的提示语格式,以便LLM能够更好地学习和应用知识。此外,论文还针对中文数学问题特点,对提示语进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个数学基准测试中显著提高了LLM的推理准确性。例如,在AddSub数据集上,使用GPT-4和该框架,准确率达到了98.2%,提升了3.3%。在Math23K数据集上,准确率达到了94.3%,提升了7.2%。此外,该方法还在SVAMP和AQuA数据集上取得了新的state-of-the-art性能。

🎯 应用场景

该研究成果可应用于教育领域,例如智能辅导系统,帮助学生解决数学问题。此外,该方法还可以扩展到其他需要领域知识的推理任务,例如科学推理、逻辑推理等,具有广泛的应用前景和实际价值。未来,该方法有望推动大语言模型在复杂推理任务中的应用。

📄 摘要(原文)

Large Language Models (LLMs) exhibit impressive performance across various domains but still struggle with arithmetic reasoning tasks. Recent work shows the effectiveness of prompt design methods in enhancing reasoning capabilities. However, these approaches overlook crucial requirements for prior knowledge of specific concepts, theorems, and tricks to tackle most arithmetic reasoning problems successfully. To address this issue, we propose a novel and effective Teaching-Inspired Integrated Framework, which emulates the instructional process of a teacher guiding students. This method equips LLMs with essential concepts, relevant theorems, and similar problems with analogous solution approaches, facilitating the enhancement of reasoning abilities. Additionally, we introduce two new Chinese datasets, MathMC and MathToF, both with detailed explanations and answers. Experiments are conducted on nine benchmarks which demonstrates that our approach improves the reasoning accuracy of LLMs. With GPT-4 and our framework, we achieve new state-of-the-art performance on four math benchmarks (AddSub, SVAMP, Math23K and AQuA) with accuracies of 98.2% (+3.3%), 93.9% (+0.2%), 94.3% (+7.2%) and 81.1% (+1.2%). Our data and code are available at https://github.com/SallyTan13/Teaching-Inspired-Prompting.