Chain-of-Thought and Compressed Looped Transformers: A Memory-Budget Separation

作者: Haozhou Zhang

分类: cs.LG

发布日期: 2026-05-29

💡 一句话要点

对比思维链与循环Transformer，揭示记忆预算对模型推理能力的限制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链 循环Transformer 记忆预算 推理能力 复杂度分析

📋 核心要点

现有方法如思维链和循环Transformer虽然增加了计算量，但对中间状态的记忆方式不同，影响推理能力。
论文核心思想是持久可变记忆是测试时推理的关键，并分析了不同记忆机制下的模型性能。
实验结果表明，压缩循环受限于循环状态大小，无法解决P完全问题，而思维链在多项式长度下可以。

📝 摘要（中文）

思维链提示和循环Transformer都为固定模型提供了更多的测试时计算，但它们在记忆方式上有所不同。思维链将中间状态存储在生成的token中，这些token保留在上下文中，而循环Transformer通过循环隐藏激活来传递状态。本文认为，这种持久的可变记忆是测试时推理的核心资源。本文比较了三种记忆机制：压缩潜在循环、完整序列状态循环和思维链草稿纸。主要结果表明，压缩循环受到其循环状态大小的限制。延长循环时间增加了计算量，但本身并没有创建一个增长的草稿纸，因此，即使运行很多步，具有小循环状态的循环仍然是一个小空间推理器。在标准复杂度假设下，这种循环无法解决在对数空间归约下是P完全的问题，而多项式长度的思维链可以。这种分离特定于压缩循环，因为完整序列状态循环在每个输入位置都携带状态，并且生活在更接近显式草稿纸的内存丰富的环境中。受控的指针追踪和关联回忆扫描说明了这种记忆预算的观点，其性能对持久状态预算是否与任务的工作记忆需求相匹配敏感。

🔬 方法详解

问题定义：论文旨在研究在测试时增加计算量的情况下，不同记忆机制（思维链和循环Transformer）对模型推理能力的影响。现有方法，特别是压缩循环Transformer，在记忆容量有限的情况下，其推理能力受到限制，无法有效解决复杂问题。

核心思路：论文的核心思路是将模型推理能力与记忆预算联系起来。认为持久的可变记忆是测试时推理的关键资源。通过比较不同记忆机制（压缩循环、完整序列状态循环和思维链）的性能，揭示记忆容量对模型解决复杂问题的限制。

技术框架：论文主要通过理论分析和实验验证来研究不同记忆机制的性能。理论分析基于标准复杂度假设，证明了压缩循环Transformer无法解决P完全问题。实验部分，设计了受控的指针追踪和关联回忆扫描任务，用于评估不同记忆机制在不同工作记忆需求下的性能表现。

关键创新：论文的关键创新在于提出了“记忆预算”的概念，将模型推理能力与记忆容量联系起来。通过对比压缩循环、完整序列状态循环和思维链，揭示了记忆容量对模型解决复杂问题的限制。这种视角为理解和改进模型的推理能力提供了新的思路。

关键设计：论文的关键设计包括：1) 区分了压缩循环和完整序列状态循环，强调了循环状态大小对推理能力的限制；2) 设计了受控的指针追踪和关联回忆扫描任务，用于评估不同记忆机制在不同工作记忆需求下的性能表现；3) 基于标准复杂度假设，证明了压缩循环Transformer无法解决P完全问题。

🖼️ 关键图片

📊 实验亮点

实验结果表明，压缩循环Transformer的性能受到循环状态大小的限制，无法有效解决需要较大工作记忆的任务。相比之下，完整序列状态循环和思维链在这些任务中表现更好，验证了记忆预算对模型推理能力的重要性。理论分析也证明了压缩循环Transformer无法解决P完全问题。

🎯 应用场景

该研究成果可应用于提升自然语言处理模型的推理能力，尤其是在需要复杂推理和长期记忆的任务中，例如问答系统、对话系统和知识图谱推理。通过优化模型的记忆机制，可以提高模型在这些任务中的性能和效率。

📄 摘要（原文）

Chain-of-thought prompting and looped Transformers both give a fixed model more test-time computation, but they differ in what they remember. Chain-of-thought stores intermediate state in generated tokens that remain in the context, whereas a looped Transformer carries state through recurrent hidden activations. We argue that this persistent mutable memory is a central resource for test-time reasoning. We compare three memory regimes, the compressed latent loop, the full sequence-state loop, and the chain-of-thought scratchpad. Our main result shows that a compressed loop is limited by the size of its recurrent state. Running the loop longer adds computation but does not by itself create a growing scratchpad, so a loop with a small recurrent state remains a small-space reasoner even when run for many steps. Under a standard complexity assumption, such loops cannot decide problems that are P-complete under logspace reductions, whereas polynomial-length chain-of-thought can. The separation is specific to compressed loops, as full sequence-state loops carry state at every input position and live in a memory-rich regime closer to explicit scratchpads. Controlled pointer-chasing and associative-recall sweeps illustrate this memory-budget view, with performance sensitive to whether the persistent-state budget matches the task's working-memory demand.

Chain-of-Thought and Compressed Looped Transformers: A Memory-Budget Separation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理