Parallel Decoder Transformer: Model-Internal Parallel Decoding with Speculative Invariance via Note Conditioning

📄 arXiv: 2512.10054v1 📥 PDF

作者: Logan Robbins

分类: cs.AI, cs.CL

发布日期: 2025-12-10


💡 一句话要点

提出并行解码Transformer(PDT),通过Note Conditioning实现模型内部的并行解码,解决LLM推理延迟问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 并行解码 Transformer 大型语言模型 推测性解码 Note Conditioning

📋 核心要点

  1. 现有LLM自回归解码的顺序性导致推理延迟,且随输出长度线性增长,成为性能瓶颈。
  2. PDT通过注入轻量级SNC适配器,使并行解码流通过共享动态潜在空间同步,实现并行解码。
  3. 实验表明,PDT在覆盖预测中达到77.8%精度,无需微调即可恢复近似串行语义,具有扩展性和效率。

📝 摘要(中文)

大型语言模型(LLM)中的自回归解码本质上是顺序的,这导致了推理延迟瓶颈,并且该延迟与输出长度呈线性关系。尽管诸如Skeleton-of-Thought之类的“分解与填充”方法试图通过外部编排来实现并行生成,但由于缺乏跨流通信,它们会遭受“一致性漂移”。本文介绍了一种参数高效的架构——并行解码Transformer(PDT),它将协调原语直接嵌入到冻结的预训练模型的推理过程中。PDT没有重新训练基础模型,而是注入了轻量级的推测性Note Conditioning(SNC)适配器,这些适配器允许并行解码流通过共享的动态潜在空间进行同步。我们将协调问题建模为推测性共识问题,其中兄弟流将语义“notes”广播到全局总线,并通过学习到的验证头进行门控。我们在一个包含50,000步的课程中使用冻结的200亿参数骨干网络验证了我们的方法。结果表明,PDT实现了有效的自我纠正,在覆盖预测中达到了77.8%的精度,并在不修改主干权重的情况下恢复了近似的串行语义。这使PDT成为结构化并行生成的一种可扩展、高效的替代方案,而无需进行完整的模型微调。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)自回归解码过程中的固有顺序性问题,该顺序性导致推理延迟与输出长度线性相关,成为实际应用中的瓶颈。现有的“分解与填充”方法虽然尝试并行生成,但由于缺乏跨流通信,容易出现“一致性漂移”现象,影响生成质量。

核心思路:论文的核心思路是将协调机制直接嵌入到预训练模型的推理过程中,而不是依赖外部编排或完全重新训练模型。通过引入“推测性Note Conditioning (SNC)”适配器,允许并行解码流通过共享的动态潜在空间进行同步,从而实现模型内部的并行解码。这种方法旨在在不显著增加模型参数量的情况下,提高解码速度并保持生成质量。

技术框架:PDT的整体架构包括一个冻结的预训练LLM骨干网络和注入的SNC适配器。并行解码流各自生成语义“notes”,这些notes被广播到一个全局总线。一个学习到的验证头(verification head)负责对这些notes进行门控,决定哪些notes被用于更新共享的动态潜在空间。这个共享空间充当了并行流之间的协调机制,帮助它们达成“推测性共识”。

关键创新:PDT的关键创新在于其模型内部的并行解码机制,以及通过SNC适配器实现的并行流之间的协调。与现有方法相比,PDT不需要对整个模型进行微调,而是通过轻量级的适配器来实现并行化,从而提高了效率和可扩展性。此外,将协调问题建模为“推测性共识”问题,并使用学习到的验证头进行门控,是一种新颖的解决并行解码一致性问题的方法。

关键设计:SNC适配器是PDT的关键组成部分,其具体结构和参数设置对性能至关重要。验证头的训练目标是准确预测notes的有效性,从而确保共享潜在空间的质量。损失函数的设计需要平衡解码速度和生成质量,鼓励并行流生成有意义且一致的notes。此外,课程学习策略也被用于逐步训练PDT,使其能够处理更复杂的并行解码任务。

🖼️ 关键图片

fig_0

📊 实验亮点

PDT在50,000步的课程学习中,使用冻结的200亿参数骨干网络进行了验证。实验结果表明,PDT在覆盖预测中达到了77.8%的精度,并且能够在不修改主干权重的情况下恢复近似的串行语义。这些结果表明,PDT是一种可扩展、高效的并行解码方法,可以作为完整模型微调的替代方案。

🎯 应用场景

PDT具有广泛的应用前景,例如可以应用于需要快速响应的对话系统、实时翻译、以及大规模文本生成等领域。通过提高LLM的推理速度,PDT可以降低计算成本,并使得LLM能够部署在资源受限的设备上。此外,PDT的并行解码机制也可以用于生成更长、更复杂的文本,例如小说、剧本等。

📄 摘要(原文)

Autoregressive decoding in Large Language Models (LLMs) is inherently sequential, creating a latency bottleneck that scales linearly with output length. While Decomposition-and-Fill'' methods like Skeleton-of-Thought attempt to parallelize generation via external orchestration, they suffer from \textit{coherence drift} due to the lack of cross-stream communication. In this work, we introduce the \textbf{Parallel Decoder Transformer (PDT)}, a parameter-efficient architecture that embeds coordination primitives directly into the inference process of a frozen pre-trained model. Instead of retraining the base model, PDT injects lightweight \textit{Speculative Note Conditioning (SNC)} adapters that allow parallel decoding streams to synchronize via a shared, dynamic latent space. We formulate coordination as a \textit{speculative consensus} problem, where sibling streams broadcast semanticnotes'' to a global bus, gated by a learned verification head. We validate our approach on a 50,000-step curriculum using a frozen 20B-parameter backbone. Our results demonstrate that PDT achieves effective self-correction, reaching \textbf{77.8\% precision} in coverage prediction and recovering approximate serial semantics without modifying the trunk weights. This establishes PDT as a scalable, efficient alternative to full model fine-tuning for structured parallel generation.