Tiny Autoregressive Recursive Models
作者: Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar
分类: cs.LG
发布日期: 2026-03-09
期刊: ICLR 2026 Workshop RSI Spotlight
💡 一句话要点
探索自回归模型中的递归机制:对Tiny递归模型在自回归任务中的有效性进行评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自回归模型 递归模型 Transformer Tiny模型 两步细化 算法任务 性能评估
📋 核心要点
- 现有Tiny递归模型缺乏因果预测结构和持久潜在状态,难以评估其在自回归任务中的性能增益。
- 论文提出自回归TRM,并设计一系列模型,逐步将Transformer转换为自回归TRM,以控制变量并评估其有效性。
- 实验结果表明,两步细化基线表现良好,但完整的自回归TRM架构并未带来可靠的性能提升。
📝 摘要(中文)
Tiny递归模型(TRM)最近在ARC-AGI上表现出色,表明极小的模型可以通过两步细化机制与大型基础模型竞争,该机制更新内部推理状态$z$和预测输出$y$。这种细化对于任何预测器都很有意义。因此,很自然地想知道TRM机制是否可以有效地应用于自回归模型。然而,TRM不能简单地与标准模型进行比较,因为它们缺乏因果预测结构,并且包含持久的潜在状态,这使得难以分离特定的性能增益。在本文中,我们提出了自回归TRM,并在小型自回归任务上对其进行了评估。为了理解其有效性,我们提出了一套模型,这些模型在受控设置中逐步将标准Transformer转换为Tiny自回归递归模型,该设置固定了块设计、token流和下一个token目标。在字符级算法任务上的计算匹配实验中,我们惊讶地发现,一些两级细化基线表现出强大的性能。与预期相反,我们没有发现来自完整自回归TRM架构的可靠性能提升。这些结果为更广泛的两步细化机制提供了潜在的希望,但也警告不要投资于自回归TRM特定模型作为富有成效的研究方向。
🔬 方法详解
问题定义:论文旨在研究Tiny递归模型(TRM)的递归细化机制在自回归模型中的有效性。现有TRM模型缺乏因果预测结构,且包含持久的潜在状态,难以直接评估其在自回归任务中的性能提升,也难以与标准自回归模型进行公平比较。
核心思路:论文的核心思路是通过构建一系列模型,逐步将标准的Transformer模型转换为自回归TRM,从而在受控的环境下评估TRM的递归细化机制对自回归模型性能的影响。通过这种方式,可以隔离并分析TRM特定组件带来的性能变化。
技术框架:整体框架包括:1) 标准Transformer模型作为基线;2) 一系列中间模型,逐步引入TRM的递归细化机制;3) 最终的自回归TRM模型。所有模型共享相同的块设计、token流和下一个token预测目标。通过比较这些模型在字符级算法任务上的性能,可以评估TRM递归细化机制的有效性。
关键创新:论文的关键创新在于其评估方法,即通过逐步转换Transformer模型来控制变量,从而更准确地评估TRM递归细化机制的贡献。此外,论文还提出了自回归TRM架构,并对其在自回归任务中的性能进行了实证研究。
关键设计:论文的关键设计包括:1) 使用字符级算法任务作为评估基准;2) 设计一系列中间模型,逐步引入TRM的递归细化机制;3) 采用计算匹配的实验设置,确保所有模型具有相似的计算资源;4) 详细分析不同模型的性能差异,以确定TRM递归细化机制的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在字符级算法任务上,一些两步细化基线表现出强大的性能,但完整的自回归TRM架构并未带来可靠的性能提升。这表明两步细化机制可能具有潜力,但自回归TRM特定模型可能并非最佳实现方式。该研究结果对未来自回归模型的设计具有重要的指导意义。
🎯 应用场景
该研究探索了递归细化机制在自回归模型中的应用潜力,有助于理解和改进自回归模型的性能。研究结果可以应用于自然语言处理、时间序列预测等领域,为设计更高效的自回归模型提供指导。虽然论文结果表明自回归TRM架构本身可能并非富有成效的研究方向,但其对两步细化机制的探索具有启发意义。
📄 摘要(原文)
Tiny Recursive Models (TRMs) have recently demonstrated remarkable performance on ARC-AGI, showing that very small models can compete against large foundation models through a two-step refinement mechanism that updates an internal reasoning state $z$ and the predicted output $y$. Naturally, such refinement is of interest for any predictor; it is therefore natural to wonder whether the TRM mechanism could be effectively re-adopted in autoregressive models. However, TRMs cannot be simply compared to standard models because they lack causal predictive structures and contain persistent latent states that make it difficult to isolate specific performance gains. In this paper, we propose the Autoregressive TRM and evaluate it on small autoregressive tasks. To understand its efficacy, we propose a suite of models that gradually transform a standard Transformer to a Tiny Autoregressive Recursive Model in a controlled setting that fixes the block design, token stream, and next-token objective. Across compute-matched experiments on character-level algorithmic tasks, we surprisingly find that there are some two-level refinement baselines that show strong performance. Contrary to expectations, we find no reliable performance gains from the full Autoregressive TRM architecture. These results offer potential promise for two-step refinement mechanisms more broadly but caution against investing in the autoregressive TRM-specific model as a fruitful research direction.