Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers

作者: Harsh Kohli, Srinivasan Parthasarathy, Huan Sun, Yuekun Yao

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-09

备注: 19 pages, 18 figures. Under review

💡 一句话要点

提出循环深度Transformer，解决Transformer在隐式推理中组合泛化能力不足的问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 隐式推理 组合泛化 循环深度Transformer 系统泛化 深度外推

📋 核心要点

Transformer在隐式多跳推理中，组合知识进行泛化的能力不足，是现有方法的挑战。
提出循环深度Transformer，通过在相同Transformer层上迭代计算，增强模型组合泛化能力。
实验表明，循环深度Transformer在系统泛化和深度外推方面优于普通Transformer，但存在过度思考的局限。

📝 摘要（中文）

本文研究了隐式推理，即在单个前向传播中组合知识或规则的能力。虽然基于Transformer的大型语言模型存储了大量的知识和规则，但它们常常无法组合这些知识进行隐式多跳推理，这表明它们在参数化知识上缺乏组合泛化能力。为了解决这个局限性，我们研究了循环深度Transformer，它能够在相同的Transformer层上进行迭代计算。我们研究了隐式推理场景下的两个组合泛化挑战：系统泛化，即组合训练期间从未用于组合的知识；以及深度外推，即从有限的推理深度（例如，训练到5跳）泛化到更深的组合（例如，10跳）。通过对从头开始训练的模型进行受控研究，我们表明，虽然普通的Transformer在两个泛化挑战中都表现不佳，但循环深度Transformer可以有效地进行这种泛化。对于系统泛化，我们发现这种能力是通过一个三阶段的grokking过程出现的，从记忆到分布内泛化，最后到系统泛化，并由机制分析支持。对于深度外推，我们表明，可以通过缩放推理时的循环次数来解锁超出训练深度的泛化，更多的迭代能够实现更深的推理。我们进一步研究了训练策略如何影响外推，为训练循环深度Transformer提供了指导，并确定了一个关键的局限性，即过度思考，过度的循环会降低预测质量，并限制泛化到非常深的组合。

🔬 方法详解

问题定义：Transformer模型虽然存储了大量知识，但在隐式推理任务中，无法有效组合这些知识进行多跳推理，导致组合泛化能力不足。现有的Transformer模型难以处理训练数据中未见过的知识组合，以及超出训练深度的推理。

核心思路：论文的核心思路是引入循环机制，使Transformer模型能够在相同的层上进行多次迭代计算，从而模拟人类的推理过程。通过多次迭代，模型可以逐步组合知识，提高组合泛化能力，并实现深度外推。

技术框架：循环深度Transformer的整体架构与标准Transformer类似，但关键区别在于其Transformer层可以被重复使用多次。输入数据经过embedding后，通过循环的Transformer层进行多次迭代处理，每次迭代的输出作为下一次迭代的输入。最终的输出用于预测或分类。

关键创新：最重要的创新点在于引入了循环机制，使得模型能够进行迭代推理。这种循环机制允许模型在相同的参数上进行多次计算，从而提高了模型的组合泛化能力和深度外推能力。与传统的Transformer相比，循环深度Transformer能够更好地处理复杂的推理任务。

关键设计：论文中，循环次数是一个关键的超参数，控制着模型的推理深度。训练策略也对模型的性能有重要影响，需要仔细调整。此外，论文还研究了过度思考的问题，即过多的循环次数可能会导致性能下降。因此，需要找到一个合适的循环次数，以平衡模型的推理能力和泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，循环深度Transformer在系统泛化和深度外推方面显著优于普通Transformer。在系统泛化方面，循环深度Transformer能够泛化到训练期间未见过的知识组合。在深度外推方面，循环深度Transformer能够泛化到超出训练深度的推理，例如从5跳推理泛化到10跳推理。然而，过多的循环次数会导致过度思考，降低模型性能。

🎯 应用场景

该研究成果可应用于需要复杂推理和知识组合的自然语言处理任务，例如问答系统、知识图谱推理、对话系统等。通过提高模型的组合泛化能力，可以使模型更好地理解和处理复杂的问题，从而提高任务的准确性和效率。此外，该研究还可以促进对人类推理过程的理解，并为开发更智能的AI系统提供新的思路。

📄 摘要（原文）

We study implicit reasoning, i.e. the ability to combine knowledge or rules within a single forward pass. While transformer-based large language models store substantial factual knowledge and rules, they often fail to compose this knowledge for implicit multi-hop reasoning, suggesting a lack of compositional generalization over their parametric knowledge. To address this limitation, we study recurrent-depth transformers, which enables iterative computation over the same transformer layers. We investigate two compositional generalization challenges under the implicit reasoning scenario: systematic generalization, i.e. combining knowledge that is never used for compositions during training, and depth extrapolation, i.e. generalizing from limited reasoning depth (e.g. training on up to 5-hop) to deeper compositions (e.g. 10-hop). Through controlled studies with models trained from scratch, we show that while vanilla transformers struggle with both generalization challenges, recurrent-depth transformers can effectively make such generalization. For systematic generalization, we find that this ability emerges through a three-stage grokking process, transitioning from memorization to in-distribution generalization and finally to systematic generalization, supported by mechanistic analysis. For depth extrapolation, we show that generalization beyond training depth can be unlocked by scaling inference-time recurrence, with more iterations enabling deeper reasoning. We further study how training strategies affect extrapolation, providing guidance on training recurrent-depth transformers, and identify a key limitation, overthinking, where excessive recurrence degrades predictions and limits generalization to very deep compositions.

Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理