Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers

📄 arXiv: 2604.07822v1 📥 PDF

作者: Harsh Kohli, Srinivasan Parthasarathy, Huan Sun, Yuekun Yao

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-09

备注: 19 pages, 18 figures. Under review


💡 一句话要点

提出循环深度Transformer,解决Transformer在隐式推理中组合泛化能力不足的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐式推理 组合泛化 循环深度Transformer 系统泛化 深度外推

📋 核心要点

  1. Transformer在隐式多跳推理中,组合知识进行泛化的能力不足,是现有方法的挑战。
  2. 提出循环深度Transformer,通过在相同Transformer层上迭代计算,增强模型组合泛化能力。
  3. 实验表明,循环深度Transformer在系统泛化和深度外推方面优于普通Transformer,但存在过度思考的局限。

📝 摘要(中文)

本文研究了隐式推理,即在单个前向传播中组合知识或规则的能力。虽然基于Transformer的大型语言模型存储了大量的知识和规则,但它们常常无法组合这些知识进行隐式多跳推理,这表明它们在参数化知识上缺乏组合泛化能力。为了解决这个局限性,我们研究了循环深度Transformer,它能够在相同的Transformer层上进行迭代计算。我们研究了隐式推理场景下的两个组合泛化挑战:系统泛化,即组合训练期间从未用于组合的知识;以及深度外推,即从有限的推理深度(例如,训练到5跳)泛化到更深的组合(例如,10跳)。通过对从头开始训练的模型进行受控研究,我们表明,虽然普通的Transformer在两个泛化挑战中都表现不佳,但循环深度Transformer可以有效地进行这种泛化。对于系统泛化,我们发现这种能力是通过一个三阶段的grokking过程出现的,从记忆到分布内泛化,最后到系统泛化,并由机制分析支持。对于深度外推,我们表明,可以通过缩放推理时的循环次数来解锁超出训练深度的泛化,更多的迭代能够实现更深的推理。我们进一步研究了训练策略如何影响外推,为训练循环深度Transformer提供了指导,并确定了一个关键的局限性,即过度思考,过度的循环会降低预测质量,并限制泛化到非常深的组合。

🔬 方法详解

问题定义:Transformer模型虽然存储了大量知识,但在隐式推理任务中,无法有效组合这些知识进行多跳推理,导致组合泛化能力不足。现有的Transformer模型难以处理训练数据中未见过的知识组合,以及超出训练深度的推理。

核心思路:论文的核心思路是引入循环机制,使Transformer模型能够在相同的层上进行多次迭代计算,从而模拟人类的推理过程。通过多次迭代,模型可以逐步组合知识,提高组合泛化能力,并实现深度外推。

技术框架:循环深度Transformer的整体架构与标准Transformer类似,但关键区别在于其Transformer层可以被重复使用多次。输入数据经过embedding后,通过循环的Transformer层进行多次迭代处理,每次迭代的输出作为下一次迭代的输入。最终的输出用于预测或分类。

关键创新:最重要的创新点在于引入了循环机制,使得模型能够进行迭代推理。这种循环机制允许模型在相同的参数上进行多次计算,从而提高了模型的组合泛化能力和深度外推能力。与传统的Transformer相比,循环深度Transformer能够更好地处理复杂的推理任务。

关键设计:论文中,循环次数是一个关键的超参数,控制着模型的推理深度。训练策略也对模型的性能有重要影响,需要仔细调整。此外,论文还研究了过度思考的问题,即过多的循环次数可能会导致性能下降。因此,需要找到一个合适的循环次数,以平衡模型的推理能力和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,循环深度Transformer在系统泛化和深度外推方面显著优于普通Transformer。在系统泛化方面,循环深度Transformer能够泛化到训练期间未见过的知识组合。在深度外推方面,循环深度Transformer能够泛化到超出训练深度的推理,例如从5跳推理泛化到10跳推理。然而,过多的循环次数会导致过度思考,降低模型性能。

🎯 应用场景

该研究成果可应用于需要复杂推理和知识组合的自然语言处理任务,例如问答系统、知识图谱推理、对话系统等。通过提高模型的组合泛化能力,可以使模型更好地理解和处理复杂的问题,从而提高任务的准确性和效率。此外,该研究还可以促进对人类推理过程的理解,并为开发更智能的AI系统提供新的思路。

📄 摘要(原文)

We study implicit reasoning, i.e. the ability to combine knowledge or rules within a single forward pass. While transformer-based large language models store substantial factual knowledge and rules, they often fail to compose this knowledge for implicit multi-hop reasoning, suggesting a lack of compositional generalization over their parametric knowledge. To address this limitation, we study recurrent-depth transformers, which enables iterative computation over the same transformer layers. We investigate two compositional generalization challenges under the implicit reasoning scenario: systematic generalization, i.e. combining knowledge that is never used for compositions during training, and depth extrapolation, i.e. generalizing from limited reasoning depth (e.g. training on up to 5-hop) to deeper compositions (e.g. 10-hop). Through controlled studies with models trained from scratch, we show that while vanilla transformers struggle with both generalization challenges, recurrent-depth transformers can effectively make such generalization. For systematic generalization, we find that this ability emerges through a three-stage grokking process, transitioning from memorization to in-distribution generalization and finally to systematic generalization, supported by mechanistic analysis. For depth extrapolation, we show that generalization beyond training depth can be unlocked by scaling inference-time recurrence, with more iterations enabling deeper reasoning. We further study how training strategies affect extrapolation, providing guidance on training recurrent-depth transformers, and identify a key limitation, overthinking, where excessive recurrence degrades predictions and limits generalization to very deep compositions.