On Memorization of Large Language Models in Logical Reasoning

作者: Chulin Xie, Yangsibo Huang, Chiyuan Zhang, Da Yu, Xinyun Chen, Bill Yuchen Lin, Bo Li, Badih Ghazi, Ravi Kumar

分类: cs.CL

发布日期: 2024-10-30 (更新: 2025-03-04)

💡 一句话要点

研究表明：大型语言模型在逻辑推理中存在对训练数据的记忆现象

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逻辑推理 记忆 泛化能力 骑士与无赖谜题

📋 核心要点

大型语言模型在推理任务中表现出色，但其推理机制尚不明确，可能存在对训练数据的过度记忆问题。
论文通过动态生成的骑士与无赖（K&K）谜题，定量分析了LLMs在逻辑推理中的记忆现象。
实验表明，微调后的LLMs能记忆训练数据，但泛化能力有限，同时推理能力也得到提升。

📝 摘要（中文）

大型语言模型（LLMs）在具有挑战性的推理基准测试中表现良好，但也会犯基本的推理错误。这种对比鲜明的行为令人困惑，难以理解LLMs推理能力背后的机制。一个假设是，在常见的推理基准测试中，越来越高且几乎饱和的性能可能是由于对类似问题的记忆造成的。在本文中，我们使用基于骑士与无赖（K&K）谜题的动态生成的逻辑推理基准，通过定量测量推理任务中的记忆，系统地研究了这一假设。我们发现，LLMs在微调后可以插值和记忆训练谜题（达到接近完美的准确率），但它们难以应对这些谜题的细微变化。另一方面，我们表明，虽然微调会导致大量记忆，但它也能持续提高泛化性能。通过深入的扰动测试、跨难度级别可迁移性、探测模型内部结构以及使用错误答案进行微调，我们确定LLMs在K&K谜题上发展推理技能的同时也存在记忆。最后，我们基于每个样本的记忆得分的分析揭示了LLMs在解决逻辑谜题时如何在推理和记忆之间切换。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLMs）在逻辑推理任务中是否存在记忆现象，以及这种记忆现象与推理能力之间的关系。现有方法难以区分LLMs在推理任务中的表现是源于真正的推理能力，还是仅仅是对训练数据的记忆。这种区分对于理解和提升LLMs的推理能力至关重要。

核心思路：论文的核心思路是通过构建一个可控的逻辑推理环境（基于骑士与无赖谜题），并设计一系列实验来量化LLMs的记忆程度。通过观察LLMs在训练数据及其变体上的表现，以及分析模型内部状态，来判断LLMs是否真正具备推理能力，还是仅仅依赖于对训练数据的记忆。

技术框架：整体框架包括以下几个主要阶段：1) 构建基于骑士与无赖谜题的动态逻辑推理基准数据集；2) 使用该数据集对LLMs进行微调；3) 设计扰动测试，评估LLMs对训练数据变体的泛化能力；4) 进行跨难度级别可迁移性分析，考察LLMs在不同难度谜题上的表现；5) 探测模型内部状态，分析LLMs的推理过程；6) 使用错误答案进行微调，观察LLMs的学习行为；7) 计算每个样本的记忆得分，分析LLMs在推理和记忆之间的切换。

关键创新：论文最重要的技术创新点在于提出了一个量化LLMs在逻辑推理任务中记忆程度的方法。通过动态生成逻辑推理基准，并设计一系列实验，能够更清晰地揭示LLMs的记忆行为，并区分记忆和推理能力。与现有方法相比，该方法更加系统和可控，能够更准确地评估LLMs的推理能力。

关键设计：论文的关键设计包括：1) 基于骑士与无赖谜题构建逻辑推理基准，保证了问题的可控性和多样性；2) 设计扰动测试，通过对训练数据进行细微修改，评估LLMs的泛化能力；3) 采用跨难度级别可迁移性分析，考察LLMs在不同难度谜题上的表现；4) 探测模型内部状态，分析LLMs的推理过程；5) 使用错误答案进行微调，观察LLMs的学习行为；6) 定义每个样本的记忆得分，量化LLMs的记忆程度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过微调的LLMs在训练集上能达到接近完美的准确率，但对训练数据的细微变动泛化能力较差。同时，微调虽然导致了对训练数据的记忆，但也提升了模型的泛化性能。通过扰动测试、跨难度迁移和模型内部探测等分析，证实LLMs在学习K&K谜题时，推理能力和记忆能力并存。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的推理能力，尤其是在需要高可靠性的应用场景，如医疗诊断、金融分析和法律咨询等。通过降低模型对训练数据的过度依赖，可以提高其在实际应用中的泛化能力和鲁棒性，从而减少错误决策的风险。未来的研究可以探索更有效的训练方法，以平衡记忆和推理能力，并开发更可靠的推理评估指标。

📄 摘要（原文）

Large language models (LLMs) achieve good performance on challenging reasoning benchmarks, yet could also make basic reasoning mistakes. This contrasting behavior is puzzling when it comes to understanding the mechanisms behind LLMs' reasoning capabilities. One hypothesis is that the increasingly high and nearly saturated performance on common reasoning benchmarks could be due to the memorization of similar problems. In this paper, we systematically investigate this hypothesis with a quantitative measurement of memorization in reasoning tasks, using a dynamically generated logical reasoning benchmark based on Knights and Knaves (K&K) puzzles. We find that LLMs could interpolate and memorize the training puzzles (achieving near-perfect accuracy) after fine-tuning, yet they struggle with slight variations of these puzzles. On the other hand, we show that while fine-tuning leads to heavy memorization, it also consistently improves generalization performance. Through in-depth analyses with perturbation tests, cross difficulty-level transferability, probing model internals, and fine-tuning with wrong answers, we establish that LLMs develop reasoning skills on K&K puzzles alongside memorization. Finally, our analysis based on a per-sample memorization score sheds light on how LLMs switch between reasoning and memorization when solving logical puzzles. Our code and data are available at https://memkklogic.github.io.

On Memorization of Large Language Models in Logical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理