Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models

📄 arXiv: 2411.12580v2 📥 PDF

作者: Laura Ruis, Maximilian Mozes, Juhan Bae, Siddhartha Rao Kamalakara, Dwarak Talupuru, Acyr Locatelli, Robert Kirk, Tim Rocktäschel, Edward Grefenstette, Max Bartolo

分类: cs.CL, cs.LG

发布日期: 2024-11-19 (更新: 2025-03-06)

备注: Published at ICLR 2025


💡 一句话要点

通过预训练中的程序性知识驱动大型语言模型的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力 预训练数据 程序性知识 数学推理

📋 核心要点

  1. 大型语言模型在推理能力上存在差距,其泛化策略的稳健性受到质疑。
  2. 通过分析预训练数据中影响模型推理过程的文档,揭示模型学习到的程序性知识。
  3. 研究发现模型通过综合预训练数据中的程序性知识来进行推理,而非简单的检索。

📝 摘要(中文)

近年来,大型语言模型(LLM)的能力和局限性已被详细描述,呈现出一种有趣但矛盾的景象。一方面,LLM表现出解决问题的通用能力。另一方面,与人类相比,它们在推理方面表现出令人惊讶的差距,这让人怀疑其泛化策略的稳健性。LLM设计中使用的大量数据使得我们无法应用传统上用于衡量泛化的方法:训练集-测试集分离。为了克服这个问题,我们通过研究LLM所依赖的预训练数据,来研究LLM在执行推理任务时采用何种泛化策略。对于两个不同大小的模型(7B和35B)及其2.5B的预训练tokens,我们确定了哪些文档影响模型对三个简单数学推理任务的输出,并将此与影响回答事实性问题的数据进行对比。我们发现,虽然模型在回答每个事实性问题时主要依赖于不同的数据集,但一个文档通常对同一任务中不同推理问题具有相似的影响,表明存在程序性知识。我们进一步发现,事实性问题的答案经常出现在最具影响力的文档中。然而,对于推理问题,答案通常不会作为高度有影响力的信息出现,中间推理步骤的答案也不会。当我们对推理问题排名靠前的文档进行定性描述时,我们证实了有影响力的文档通常包含程序性知识,例如演示如何使用公式或代码获得解决方案。我们的发现表明,模型使用的推理方法不像检索,而更像是一种可泛化的策略,它从执行类似推理的文档中综合程序性知识。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在数学推理任务中的推理机制。现有方法难以直接评估LLM的泛化能力,因为其预训练数据量巨大,无法采用传统的训练集-测试集分离方法。因此,需要一种新的方法来理解LLM如何利用其预训练知识进行推理。

核心思路:论文的核心思路是通过分析LLM在执行推理任务时所依赖的预训练数据,来揭示其推理策略。具体来说,论文关注哪些文档对模型的输出影响最大,并分析这些文档的内容,从而了解模型是否学习到了程序性知识,以及如何利用这些知识进行推理。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择两个不同规模的LLM(7B和35B)以及一部分预训练数据(2.5B tokens);2) 设计三个简单的数学推理任务和一些事实性问题;3) 对于每个问题,确定哪些预训练文档对模型的输出影响最大;4) 对这些最具影响力的文档进行定性和定量分析,以了解它们包含的内容和模型如何利用它们进行推理。

关键创新:论文的关键创新在于提出了一种新的方法来研究LLM的推理机制,即通过分析预训练数据的影响。这种方法克服了传统方法在评估LLM泛化能力方面的局限性,并为理解LLM的内部工作原理提供了新的视角。此外,论文还发现LLM的推理过程更像是一种综合程序性知识的泛化策略,而非简单的检索,这挑战了以往对LLM推理机制的认知。

关键设计:论文的关键设计包括:1) 选择简单的数学推理任务,以便更容易分析模型所依赖的知识;2) 使用影响函数来确定哪些预训练文档对模型的输出影响最大;3) 对最具影响力的文档进行定性分析,以了解它们包含的内容,例如公式、代码等;4) 对比推理问题和事实性问题所依赖的文档,以了解模型在不同类型任务中的推理策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,LLM在推理过程中依赖于包含程序性知识的预训练文档,例如公式和代码示例。与事实性问题不同,推理问题的答案及其中间步骤的答案通常不会直接出现在最具影响力的文档中。这表明LLM通过综合预训练数据中的程序性知识来进行推理,而非简单的检索。

🎯 应用场景

该研究成果有助于更好地理解大型语言模型的推理机制,并为改进LLM的推理能力提供指导。潜在应用领域包括智能教育、自动代码生成、科学研究等,可以提升LLM在复杂问题解决中的表现,并促进人工智能技术的更广泛应用。

📄 摘要(原文)

The capabilities and limitations of Large Language Models have been sketched out in great detail in recent years, providing an intriguing yet conflicting picture. On the one hand, LLMs demonstrate a general ability to solve problems. On the other hand, they show surprising reasoning gaps when compared to humans, casting doubt on the robustness of their generalisation strategies. The sheer volume of data used in the design of LLMs has precluded us from applying the method traditionally used to measure generalisation: train-test set separation. To overcome this, we study what kind of generalisation strategies LLMs employ when performing reasoning tasks by investigating the pretraining data they rely on. For two models of different sizes (7B and 35B) and 2.5B of their pretraining tokens, we identify what documents influence the model outputs for three simple mathematical reasoning tasks and contrast this to the data that are influential for answering factual questions. We find that, while the models rely on mostly distinct sets of data for each factual question, a document often has a similar influence across different reasoning questions within the same task, indicating the presence of procedural knowledge. We further find that the answers to factual questions often show up in the most influential data. However, for reasoning questions the answers usually do not show up as highly influential, nor do the answers to the intermediate reasoning steps. When we characterise the top ranked documents for the reasoning questions qualitatively, we confirm that the influential documents often contain procedural knowledge, like demonstrating how to obtain a solution using formulae or code. Our findings indicate that the approach to reasoning the models use is unlike retrieval, and more like a generalisable strategy that synthesises procedural knowledge from documents doing a similar form of reasoning.