Pause Tokens Strictly Increase the Expressivity of Constant-Depth Transformers
作者: Charles London, Varun Kanade
分类: cs.LG, cs.CL
发布日期: 2025-05-27
💡 一句话要点
引入暂停符号显著提升恒定深度Transformer的表达能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer 暂停符号 表达能力 深度学习 计算理论 自然语言处理 数学推理
📋 核心要点
- 现有的Transformer模型在处理某些任务时表现不佳,尤其是在缺乏有效符号的情况下,导致其表达能力受限。
- 本文提出通过引入暂停符号来增强恒定深度Transformer的表达能力,理论上证明其对计算能力的提升。
- 实验结果显示,添加暂停符号后,Transformer能够成功学习复杂的函数,如奇偶性,而没有这些符号则无法实现。
📝 摘要(中文)
暂停符号(如"...")作为简单的填充符号,能够持续改善Transformer在语言和数学任务上的表现,但其理论效应尚未得到解释。本文首次提供了形式上的分离结果,证明在恒定深度、对数宽度的Transformer中,添加暂停符号严格增加其计算表达能力。对于有界精度的激活函数,未添加暂停符号的Transformer仅能计算$ ext{AC}^0$函数的严格子集,而添加多项式数量的暂停符号则使其能够表达整个类别。对于对数精度的Transformer,添加暂停符号的表达能力达到$ ext{TC}^0$,与已知的上界相匹配。实证结果表明,双层因果掩蔽的Transformer在提供暂停符号时能够学习奇偶性,而在没有暂停符号时则无法学习。我们的结果为先前的实证发现提供了严格的理论解释,并阐明了暂停符号如何与宽度、深度和数值精度相互作用,定位其为增强Transformer推理的独特机制,补充链式思维提示。
🔬 方法详解
问题定义:本文旨在解决现有恒定深度Transformer在表达能力上的不足,特别是在处理复杂任务时的局限性。现有方法未能有效利用填充符号,导致计算能力受限。
核心思路:论文的核心思路是通过引入暂停符号,提升Transformer的计算表达能力。通过理论证明,添加这些符号可以使模型表达更复杂的函数,从而克服现有模型的局限。
技术框架:整体架构包括对数宽度的Transformer模型,添加暂停符号后进行理论分析和实证测试。主要模块包括模型设计、符号引入及其对计算能力的影响分析。
关键创新:最重要的技术创新在于首次形式化证明了暂停符号的引入严格增加了Transformer的表达能力,特别是在恒定深度和对数宽度的情况下。与现有方法相比,本文明确了暂停符号的独特作用。
关键设计:关键设计包括对模型的深度和宽度进行限制,使用有界精度的激活函数,并通过添加多项式数量的暂停符号来扩展模型的表达能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,双层因果掩蔽的Transformer在添加暂停符号后成功学习奇偶性函数,而在没有这些符号的情况下则无法实现,显示出性能的显著提升。这一发现为Transformer模型的设计提供了新的思路。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、数学推理及其他需要复杂推理的任务。通过提升Transformer的表达能力,能够在更广泛的应用场景中实现更高的性能,推动智能系统的进一步发展。
📄 摘要(原文)
Pause tokens, simple filler symbols such as "...", consistently improve Transformer performance on both language and mathematical tasks, yet their theoretical effect remains unexplained. We provide the first formal separation result, proving that adding pause tokens to constant-depth, logarithmic-width Transformers strictly increases their computational expressivity. With bounded-precision activations, Transformers without pause tokens compute only a strict subset of $\mathsf{AC}^0$ functions, while adding a polynomial number of pause tokens allows them to express the entire class. For logarithmic-precision Transformers, we show that adding pause tokens achieves expressivity equivalent to $\mathsf{TC}^0$, matching known upper bounds. Empirically, we demonstrate that two-layer causally masked Transformers can learn parity when supplied with pause tokens, a function that they appear unable to learn without them. Our results provide a rigorous theoretical explanation for prior empirical findings, clarify how pause tokens interact with width, depth, and numeric precision, and position them as a distinct mechanism, complementary to chain-of-thought prompting, for enhancing Transformer reasoning.