Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space
作者: Houjun Liu, Shikhar Murty, Christopher D. Manning, Róbert Csordás
分类: cs.LG, cs.AI, cs.CL, cs.NE
发布日期: 2025-09-30 (更新: 2026-01-30)
💡 一句话要点
提出Thoughtbubbles,一种在隐空间进行并行自适应计算的无监督Transformer方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer 自适应计算 并行计算 隐空间 预训练 语言建模 思维链
📋 核心要点
- 现有方法依赖显式思维链,无法在预训练阶段应用,且依赖串行自然语言,限制了Transformer的推理效率。
- Thoughtbubbles通过学习fork或删除残差流,在隐空间实现并行自适应计算,无需显式思维链。
- 实验表明,Thoughtbubbles在困惑度、zero-shot评估和GSM8K任务上,均优于或媲美现有方法,且训练成本更低。
📝 摘要(中文)
目前扩展Transformer推理时计算量的方法通常训练模型在生成答案之前输出显式的思维链token。虽然这些方法很强大,但它们存在局限性,因为它们无法应用于预训练阶段,并且仅依赖于串行生成的自然语言文本。本文提出了Thoughtbubbles,一种Transformer变体,它通过学习fork或删除残差流,在隐空间中原生执行并行自适应计算。因此,需要更多计算的token可以在网络的中间形成克隆残差的“bubble”。关键的是,这种行为仅通过语言建模损失在预训练期间学习。使用一半的训练预算,Thoughtbubbles在困惑度和zero-shot评估方面都优于标准解码器LM和使用非自适应并行计算方法的模型。这些结果在从1.5亿到19亿的模型尺寸范围内都成立。Thoughtbubbles使用基线一半的token预算实现了具有竞争力的GSM8K结果。该方法的隐式性质使模型能够在预训练时开始学习自适应计算,为统一的训练时和测试时扩展行为铺平了道路。
🔬 方法详解
问题定义:现有Transformer模型在推理时扩展计算量的方法,依赖于训练模型生成显式的思维链(Chain-of-Thought)token。这种方法的痛点在于:1) 无法在预训练阶段应用,因为预训练数据通常不包含思维链标注;2) 依赖于串行生成的自然语言文本,限制了并行计算的可能性,效率较低。
核心思路:Thoughtbubbles的核心思路是在Transformer的隐空间中实现并行自适应计算。模型学习根据输入token的复杂程度,动态地“fork”或“删除”残差流。对于需要更多计算的token,模型会创建多个并行的残差流(形成“bubble”),进行更深入的处理;对于简单的token,则可以删除部分残差流,减少计算量。这种自适应计算发生在隐空间,无需显式的自然语言思维链。
技术框架:Thoughtbubbles基于标准的Transformer架构,主要修改在于引入了残差流的fork和delete机制。具体来说,在Transformer的某些层,模型会学习一个门控机制,决定是否复制当前的残差流。如果复制,则会产生多个并行的残差流,每个残差流独立进行后续的计算。在后续的层中,模型还会学习一个合并机制,将这些并行的残差流合并回一个。整个过程是端到端可训练的。
关键创新:Thoughtbubbles最重要的技术创新点在于其隐式的并行自适应计算机制。与依赖显式思维链的方法不同,Thoughtbubbles通过学习fork和delete残差流,在隐空间中动态地调整计算量。这种方法的本质区别在于:1) 可以在预训练阶段进行学习,因为不需要额外的思维链标注;2) 实现了真正的并行计算,提高了推理效率。
关键设计:Thoughtbubbles的关键设计包括:1) 用于控制残差流fork和delete的门控机制,通常使用一个小的神经网络来实现;2) 损失函数的设计,除了标准的语言建模损失外,还可以加入一些正则化项,鼓励模型学习更有效的fork和delete策略;3) 网络结构的调整,例如在哪些层引入fork和delete机制,以及fork的数量等。
🖼️ 关键图片
📊 实验亮点
Thoughtbubbles在多个实验中表现出色。在语言建模任务中,使用一半的训练预算,Thoughtbubbles在困惑度和zero-shot评估方面均优于标准解码器LM和使用非自适应并行计算方法的模型。在GSM8K数学问题求解任务中,Thoughtbubbles使用基线模型一半的token预算,实现了具有竞争力的结果。这些结果表明,Thoughtbubbles能够有效地利用计算资源,提高模型的性能。
🎯 应用场景
Thoughtbubbles具有广泛的应用前景,尤其是在需要处理复杂任务的场景中,例如:复杂推理、代码生成、机器翻译等。通过自适应地分配计算资源,Thoughtbubbles可以提高模型的效率和性能。此外,由于其可以在预训练阶段进行学习,因此可以应用于各种下游任务,实现统一的训练和推理框架。未来,Thoughtbubbles有望成为下一代Transformer模型的重要组成部分。
📄 摘要(原文)
Current approaches for scaling inference-time compute in transformers train them to emit explicit chain-of-thought tokens before producing an answer. While these methods are powerful, they are limited because they cannot be applied during pretraining and rely solely on serially-generated, natural-language verbalization. In this work, we propose Thoughtbubbles, a transformer variant that natively performs parallel adaptive computation in latent space by learning to fork or delete residual streams. Thus, tokens requiring more computation can form a "bubble" of cloned residuals in the middle of the network. Crucially, this behavior is learned during pretraining with only language modeling loss. Using half of the training budget, Thoughtbubbles outperforms the perplexity and zero-shot evals of both standard decoder LMs and those using non-adaptive parallel computation approaches. These results hold across model sizes from 150M to 1.9B. Thoughtbubbles achieves competitive GSM8K results using half of the baseline's token budget. The implicit nature of our method enables models to begin learning adaptive computation at pretraining time, paving the way to unified train-time and test-time scaling behaviors.