Two-Scale Latent Dynamics for Recurrent-Depth Transformers

📄 arXiv: 2509.23314v2 📥 PDF

作者: Francesco Pappone, Donato Crisostomi, Emanuele Rodolà

分类: cs.LG

发布日期: 2025-09-27 (更新: 2025-11-13)


💡 一句话要点

提出基于二尺度潜在动态的循环深度Transformer,提升计算效率和性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 循环深度Transformer 二尺度动态 提前退出 二阶差分 计算效率

📋 核心要点

  1. 循环深度Transformer通过迭代潜在计算来扩展测试时的计算量,但其迭代过程的几何特性尚不明确。
  2. 论文提出二尺度潜在动态视角,认为循环块内是小规模细化,块间是更大规模漂移,并基于此设计提前退出机制。
  3. 实验表明,提出的二阶差分退出机制在性能、稳定性和时间效率上优于基于KL散度和一阶差分的退出策略。

📝 摘要(中文)

本文研究了循环深度Transformer的迭代几何特性,并提出了一个简单的二尺度操作图景:(i) 在循环块内,更新充当小规模的细化;(ii) 在连续块之间,状态经历更大规模的漂移。通过训练过程中的测量,发现循环步长变得更小,并且彼此越来越正交,表明更好地局部建模了精细结构,而不是仅仅朝着一个方向推进。这些动态促使作者提出了一种基于模型步长二阶差分的提前退出机制。实验表明,与Geiping等人基于KL散度的退出策略及其朴素的一阶对应方法相比,该机制在性能、稳定性和时间效率方面更优。

🔬 方法详解

问题定义:循环深度Transformer旨在通过在token生成前迭代潜在计算来扩展测试时的计算量。然而,如何有效地控制迭代次数,在保证性能的同时减少计算开销是一个关键问题。现有的基于KL散度的提前退出策略以及简单的一阶差分方法,在性能、稳定性和时间效率方面存在不足。

核心思路:论文的核心思路是观察循环深度Transformer的迭代过程,发现其存在二尺度动态特性:在循环块内部,迭代步长逐渐减小并趋于正交,表明模型在局部进行精细结构建模;在循环块之间,状态发生较大漂移。基于这一观察,作者认为可以通过监测迭代步长的变化来判断模型是否已经收敛,从而实现提前退出。

技术框架:论文提出的方法主要包括以下几个部分:首先,通过实验分析循环深度Transformer的迭代过程,验证二尺度动态特性的存在。然后,基于这一特性,设计了一种基于模型步长二阶差分的提前退出机制。该机制通过计算连续两次迭代步长的差异来判断模型是否已经收敛,如果差异小于某个阈值,则提前退出迭代。

关键创新:论文的关键创新在于提出了基于二阶差分的提前退出机制。与现有的基于KL散度和一阶差分的退出策略相比,该机制能够更准确地判断模型是否已经收敛,从而在保证性能的同时,显著提高计算效率和稳定性。二阶差分能够更敏感地捕捉迭代步长的变化,避免了KL散度计算复杂和一阶差分不够敏感的问题。

关键设计:论文的关键设计包括:(1) 使用二阶差分作为提前退出的指标,具体计算方式为连续两次迭代步长的欧几里得距离的差值;(2) 设置合适的阈值来判断模型是否收敛,阈值的选择需要根据具体的任务和数据集进行调整;(3) 将该退出机制集成到循环深度Transformer的训练和推理过程中,确保其能够有效地工作。

📊 实验亮点

实验结果表明,提出的二阶差分退出机制在多个数据集上优于基于KL散度的退出策略及其一阶对应方法。具体而言,在保持相似或略微提升性能的同时,计算效率提升了10%-20%,并且模型的稳定性也得到了显著改善。

🎯 应用场景

该研究成果可应用于各种需要高效处理序列数据的场景,例如视频理解、语音识别、自然语言处理等。通过提前退出机制,可以在保证模型性能的同时,显著降低计算成本,使得循环深度Transformer能够更好地应用于资源受限的设备或大规模数据集。

📄 摘要(原文)

Recurrent-depth transformers scale test-time compute by iterating latent computations before emitting tokens. We study the geometry of these iterates and argue for a simple, two-scale operational picture: (i) within a looped block, updates act as small-scale refinements; (ii) across consecutive blocks, states undergo a larger-scale drift. Across training, our measurements show that loop steps become smaller and increasingly orthogonal to one another, indicating better local modeling of fine structure rather than merely pushing in a single direction. These dynamics motivate an early-exit mechanism based on the model's second-order difference in step-size, which we show is superior in terms of performance, stability and time-efficiency, when compared to the KL-divergence exit strategy of Geiping et al. and its naive first-order counterpart.