Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus

📄 arXiv: 2411.12498v2 📥 PDF

作者: Terufumi Morishita, Gaku Morio, Atsuki Yamaguchi, Yasuhiro Sogawa

分类: cs.LG, cs.AI, cs.LO

发布日期: 2024-11-19 (更新: 2024-12-23)

备注: NeurIPS 2024


💡 一句话要点

提出Additional Logic Training (ALT)方法,提升LLM的逻辑推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 逻辑推理 大型语言模型 合成数据 知识推理 微调训练

📋 核心要点

  1. 现有LLM在推理能力上存在不足,尤其是在复杂逻辑推理任务中表现欠佳。
  2. ALT方法通过生成高质量的合成逻辑推理样本,对LLM进行额外的逻辑训练,提升其推理能力。
  3. 实验表明,ALT在FLD$_{\times2}$语料库上训练后,显著提升了LLM在逻辑、数学和编码等基准测试上的性能。

📝 摘要(中文)

大型语言模型(LLMs)在解决各种任务方面表现出色,但在推理方面仍然存在困难。为了解决这个问题,我们提出了$ extbf{Additional Logic Training (ALT)}$,旨在通过程序生成的逻辑推理样本来增强LLMs的推理能力。我们首先通过整合符号逻辑理论和以往的经验性见解,确立了设计高质量样本的原则。然后,基于这些原则,我们构建了一个名为$ extbf{Formal Logic Deduction Diverse}$ ($ extbf{FLD}$${ imes 2}$)的合成语料库,该语料库包含大量具有未知事实、多样化推理规则、多样化语言表达和具有挑战性的干扰因素的多步演绎样本。最后,我们通过实验证明,在FLD${ imes2}$上进行ALT可以显著增强最先进的LLMs(包括LLaMA-3.1-70B)的推理能力。改进包括在逻辑推理基准测试中获得高达30分的提升,在数学和编码基准测试中获得高达10分的提升,以及在BBH基准测试套件中获得5分的提升。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在逻辑推理方面能力不足的问题。现有的LLMs虽然在很多任务上表现出色,但在处理需要多步推理、包含未知事实和干扰因素的复杂逻辑问题时,往往表现不佳。这限制了LLMs在需要严谨推理的实际应用中的应用。

核心思路:论文的核心思路是通过额外的逻辑训练来增强LLMs的推理能力。具体来说,就是构建一个高质量的合成逻辑推理数据集,并利用该数据集对LLMs进行微调。这种方法的核心在于,通过大量的、有针对性的逻辑推理样本,让LLMs学习到更强的推理规则和模式,从而提升其泛化能力。

技术框架:整体框架包含两个主要步骤:1) 构建合成逻辑推理语料库FLD${\times2}$;2) 使用FLD${\times2}$对LLMs进行Additional Logic Training (ALT)。FLD$_{\times2}$的构建基于预先设定的原则,包括多样化的推理规则、未知事实、语言表达和干扰因素。ALT则是利用该语料库对LLMs进行微调,使其学习到更强的逻辑推理能力。

关键创新:论文的关键创新在于提出了构建高质量合成逻辑推理语料库的原则,并基于这些原则构建了FLD${\times2}$。与以往的合成数据集相比,FLD${\times2}$更加注重推理规则的多样性、未知事实的引入以及干扰因素的设置,从而使得训练出来的LLMs具有更强的泛化能力。此外,ALT方法本身也是一种创新,它提供了一种简单有效的提升LLMs推理能力的方法。

关键设计:FLD$_{\times2}$语料库的设计原则包括:1) 多样化的推理规则:包含多种逻辑推理规则,如肯定前件、否定后件等;2) 未知事实:引入未知的事实,要求模型根据已知信息进行推理;3) 多样化的语言表达:使用不同的语言表达方式来描述相同的逻辑关系;4) 具有挑战性的干扰因素:引入与推理无关的信息,增加推理的难度。ALT训练过程使用标准的微调方法,损失函数为交叉熵损失函数。具体的参数设置(如学习率、batch size等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在FLD$_{\times2}$上进行ALT可以显著提升LLMs的推理能力。例如,在逻辑推理基准测试中,LLMs的性能提升了高达30个百分点;在数学和编码基准测试中,性能提升了高达10个百分点;在BBH基准测试套件中,性能提升了5个百分点。这些结果表明,ALT是一种有效提升LLMs推理能力的方法。

🎯 应用场景

该研究成果可应用于需要逻辑推理能力的各种领域,如智能问答、知识图谱推理、代码生成和验证等。通过提升LLMs的推理能力,可以使其在这些领域中发挥更大的作用,例如,可以用于构建更智能的对话系统,或者用于自动验证代码的正确性。未来,该方法还可以扩展到其他类型的推理任务,如常识推理和数学推理。

📄 摘要(原文)

Large language models (LLMs) are capable of solving a wide range of tasks, yet they have struggled with reasoning. To address this, we propose $\textbf{Additional Logic Training (ALT)}$, which aims to enhance LLMs' reasoning capabilities by program-generated logical reasoning samples. We first establish principles for designing high-quality samples by integrating symbolic logic theory and previous empirical insights. Then, based on these principles, we construct a synthetic corpus named $\textbf{Formal Logic Deduction Diverse}$ ($\textbf{FLD}$${\times 2}$), comprising numerous samples of multi-step deduction with unknown facts, diverse reasoning rules, diverse linguistic expressions, and challenging distractors. Finally, we empirically show that ALT on FLD${\times2}$ substantially enhances the reasoning capabilities of state-of-the-art LLMs, including LLaMA-3.1-70B. Improvements include gains of up to 30 points on logical reasoning benchmarks, up to 10 points on math and coding benchmarks, and 5 points on the benchmark suite BBH.