Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization
作者: Hung-Hsuan Chen
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-03-23
💡 一句话要点
提出深度递归Transformer,解决Transformer在组合泛化中计算深度受限问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度递归Transformer 组合泛化 多步推理 图神经网络 自然语言推理
📋 核心要点
- 传统Transformer计算深度固定,难以处理需要变长推理的任务,如多跳推理和嵌套逻辑。
- 论文提出深度递归Transformer,通过共享权重的递归结构,解耦计算深度和参数量,实现更深层次的推理。
- 实验表明,该模型在图可达性、布尔逻辑和关系文本等任务上,展现出良好的组合泛化能力。
📝 摘要(中文)
标准的Transformer具有固定的计算深度,这从根本上限制了它们泛化到需要可变深度推理的任务的能力,例如多跳图遍历或嵌套逻辑。我们提出了一种深度递归Transformer,它通过在潜在空间中迭代应用共享权重的Transformer块来解耦计算深度和参数数量,从而使模型能够在推理时用递归步骤换取更深层次的推理。我们的架构包含三种机制,使深度递归(20+步)稳定:(1)一种无声的思考目标,仅监督最终输出,迫使真正的多步推理而不是中间启发式捷径;(2)LayerScale初始化,以保护脆弱的推理状态免受未训练的层噪声的影响;(3)一种身份偏置的递归,在多个步骤中创建梯度高速公路。我们在三个具有递减归纳偏差的组合推理领域进行评估:图可达性(严格的邻接掩码)、嵌套布尔逻辑(相对定位)和非结构化关系文本(其中序列位置不提供结构提示)。在所有任务中,我们观察到一个清晰的计算边界——一个边界,随着思考步骤随任务复杂性而扩展,性能从偶然过渡到接近完美。此外,这些任务揭示了定性上不同的泛化行为:精确但脆弱(图)、近似但稳健(逻辑)和没有结构提示的自主潜在路由(文本)。这种进展阐明了任务不变的递归推理核心和任务特定的感知接口之间的相互作用如何塑造分布外(OOD)泛化,从而提供了一种垂直思维链的机械视角,补充了流行的水平token生成范式。
🔬 方法详解
问题定义:Transformer模型在处理需要多步推理或嵌套逻辑等复杂任务时,由于其固定的计算深度,难以进行有效泛化。现有的Transformer模型通常通过增加层数来提升性能,但这会导致参数量显著增加,计算成本上升,并且容易出现过拟合现象。因此,如何使模型具备可变深度的推理能力,同时保持参数量可控,是一个重要的挑战。
核心思路:论文的核心思路是将Transformer的计算深度与参数量解耦。通过引入递归机制,模型可以在潜在空间中重复应用共享权重的Transformer块,从而在推理时根据任务的复杂程度动态调整计算深度。这种设计使得模型能够在不增加参数量的情况下,进行更深层次的推理,从而提升其泛化能力。
技术框架:深度递归Transformer主要由以下几个部分组成:输入嵌入层、递归Transformer块、输出层。输入嵌入层将输入数据转换为潜在空间的表示。递归Transformer块是核心组件,它由一个共享权重的Transformer层组成,该层被迭代地应用于潜在表示。每次迭代相当于进行一次推理步骤。输出层将最终的潜在表示转换为输出结果。整个框架的关键在于递归Transformer块的共享权重设计,以及如何保证深度递归的稳定性。
关键创新:该论文最重要的技术创新点在于深度递归Transformer的架构设计,它通过共享权重的递归结构实现了计算深度与参数量的解耦。此外,论文还提出了三种机制来保证深度递归的稳定性:(1) 无声的思考目标,只监督最终输出,避免模型学习到中间捷径;(2) LayerScale初始化,防止未训练的层噪声干扰推理过程;(3) 身份偏置的递归,创建梯度高速公路,缓解梯度消失问题。
关键设计:在递归Transformer块中,使用了共享权重的Transformer层。为了保证深度递归的稳定性,采用了LayerScale初始化,将每一层的初始权重设置为一个较小的值,以减小未训练的层对推理过程的干扰。此外,还引入了身份偏置,在递归过程中加入一个恒等映射,以创建梯度高速公路,缓解梯度消失问题。损失函数方面,采用了无声的思考目标,只监督最终输出,避免模型学习到中间捷径。
🖼️ 关键图片
📊 实验亮点
实验结果表明,深度递归Transformer在图可达性、嵌套布尔逻辑和非结构化关系文本等任务上取得了显著的性能提升。在这些任务中,模型展现出清晰的计算边界,即随着思考步骤的增加,性能从随机水平迅速提升到接近完美。此外,实验还揭示了不同任务中模型泛化行为的差异,例如图任务的泛化能力精确但脆弱,逻辑任务的泛化能力近似但稳健。
🎯 应用场景
深度递归Transformer在需要多步推理和组合泛化的任务中具有广泛的应用前景,例如知识图谱推理、自然语言推理、程序合成和机器人导航等。该模型能够根据任务的复杂程度动态调整计算深度,从而在保证性能的同时,降低计算成本。此外,该模型还可以应用于解决分布外泛化问题,提升模型在未知环境中的适应能力。
📄 摘要(原文)
Standard Transformers have a fixed computational depth, fundamentally limiting their ability to generalize to tasks requiring variable-depth reasoning, such as multi-hop graph traversal or nested logic. We propose a depth-recurrent Transformer that decouples computational depth from parameter count by iteratively applying a shared-weight Transformer block in latent space -- enabling the model to trade recurrence steps for deeper reasoning at inference time. Our architecture incorporates three mechanisms to make deep recurrence (20+ steps) stable: (1) a silent thinking objective that supervises only the final output, forcing genuine multi-step reasoning rather than intermediate heuristic shortcuts; (2) LayerScale initialization to protect fragile reasoning states from untrained layer noise; and (3) an identity-biased recurrence that creates a gradient highway across many steps. We evaluate on three compositional reasoning domains with decreasing inductive biases: graph reachability (strict adjacency masking), nested boolean logic (relative positioning), and unstructured relational text (where sequence position provides no structural hints). Across all tasks, we observe a clear \emph{computational frontier} -- a boundary where performance transitions from chance to near-perfect as thinking steps scale with task complexity. Moreover, these tasks reveal qualitatively different generalization behaviors: precise but brittle (graph), approximate but robust (logic), and autonomous latent routing without structural hints (text). This progression illuminates how the interplay between a task-invariant recurrent reasoning core and task-specific perceptual interfaces shapes out-of-distribution (OOD) generalization, offering a mechanistic perspective on vertical chain-of-thought that complements the prevailing horizontal token-generation paradigm.