Self-Speculative Biased Decoding for Faster Live Translation
作者: Linxiao Zeng, Haoyun Deng, Kangyuan Shu, Shizhen Wang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-26
💡 一句话要点
提出自推测偏置解码,加速低延迟直播翻译,无需额外模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 直播翻译 低延迟 自推测解码 偏置解码 流式生成
📋 核心要点
- 现有大语言模型在直播翻译等流式应用中,面临计算成本高、延迟难以满足的问题,导致用户体验不佳。
- 论文提出自推测偏置解码,利用先前输出作为草稿,并通过偏置解码提高草稿接受率,避免重复生成,降低延迟。
- 实验表明,该方法在不损失翻译质量的前提下,实现了高达1.7倍的加速,并显著减少了80%的闪烁现象。
📝 摘要(中文)
大型语言模型(LLMs)最近在各种文本生成任务中表现出令人印象深刻的能力。然而,在流式应用(如直播翻译)中直接使用它们仍然具有挑战性,因为在直播翻译中,输出必须随着输入上下文的扩展而不断更新,同时仍需保持合理的计算成本以满足延迟要求。本文重新审视了用于同声翻译的重译方法,并提出了一种新颖的推理范式——自推测偏置解码,旨在避免为持续增长的输入流重复从头开始生成输出。我们建议使用最新的输出作为当前增长的输入上下文的草稿。在验证阶段,输出将偏向于草稿token,以获得更高的草稿接受率。这种策略不仅最大限度地减少了可能分散用户注意力的闪烁,而且还带来了更高的加速。在草稿验证之后,常规解码可以从发散点开始,并继续直到满足结束条件。与现有的推测解码策略不同,我们的方法消除了草稿计算的需要,使其成为一种模型无关的、即插即用的解决方案,用于加速对延迟敏感的流式应用。在同步文本到文本重译上的实验结果表明,与传统的自回归重译相比,我们的方法在不影响质量的前提下,实现了高达1.7倍的加速。此外,通过结合仅显示掩码-k技术,它显著减少了80%的闪烁。
🔬 方法详解
问题定义:论文旨在解决直播翻译等流式应用中,使用大型语言模型进行重译时计算成本高、延迟大的问题。现有方法需要对每个增长的输入流从头开始生成输出,导致重复计算和较高的延迟,无法满足实时性要求。
核心思路:论文的核心思路是利用先前生成的输出作为当前输入的“草稿”,避免从头开始生成。通过在解码过程中对草稿token进行偏置,提高草稿的接受率,从而减少需要重新计算的部分,降低整体延迟。这种方法类似于人类的校对过程,即先快速生成一个草稿,然后进行修改和润色。
技术框架:该方法主要包含两个阶段:草稿生成和草稿验证。草稿生成阶段直接使用上一次的输出作为草稿。草稿验证阶段,模型在解码时会偏向于草稿中的token。如果草稿token被接受,则继续使用草稿;如果草稿token被拒绝,则从当前位置开始进行常规的自回归解码,直到满足结束条件。此外,论文还采用了“仅显示掩码-k”技术,进一步减少输出的闪烁。
关键创新:该方法最重要的创新点在于无需额外的草稿模型,而是直接利用自身的先前输出来生成草稿,这使得该方法具有模型无关性和即插即用的特性,可以方便地应用于各种现有的语言模型。与传统的推测解码方法相比,该方法避免了草稿模型的训练和维护成本。
关键设计:论文的关键设计包括:1) 偏置解码策略,通过调整概率分布,使模型更倾向于选择草稿中的token;2) “仅显示掩码-k”技术,通过限制每次显示的token数量,减少输出的闪烁;3) 动态调整偏置强度,以平衡翻译质量和加速效果。
📊 实验亮点
实验结果表明,该方法在同声文本到文本重译任务上,相比于传统的自回归重译,实现了高达1.7倍的加速,同时没有显著降低翻译质量。此外,通过引入“仅显示掩码-k”技术,该方法还显著减少了80%的输出闪烁,进一步提升了用户体验。这些结果表明,该方法在加速低延迟流式文本生成方面具有显著优势。
🎯 应用场景
该研究成果可广泛应用于各种需要低延迟的流式文本生成场景,例如直播翻译、实时字幕生成、语音助手等。通过降低延迟和减少闪烁,可以显著提升用户体验,使得这些应用更加实用和高效。未来,该方法还可以扩展到其他类型的序列生成任务,例如代码生成、文本摘要等。
📄 摘要(原文)
Large Language Models (LLMs) have recently demonstrated impressive capabilities in various text generation tasks. However, it remains challenging to use them off-the-shelf in streaming applications (such as live translation), where the output must continually update as the input context expands, while still maintaining a reasonable computational cost to meet the latency requirement. In this work, we reexamine the re-translation approach to simultaneous translation and propose Self-Speculative Biased Decoding, a novel inference paradigm designed to avoid repeatedly generating output from scratch for a consistently growing input stream. We propose using the most recent output as a draft for the current growing input context. During the verification stage, the output will be biased towards the draft token for a higher draft acceptance rate. This strategy not only minimizes flickering that might distract users but also leads to higher speedups. Conventional decoding may take charge from the point of divergence after draft verification and continue until the end condition is met. Unlike existing speculative decoding strategies, our approach eliminates the need for draft computations, making it a model-agnostic and plug-and-play solution for accelerating latency-sensitive streaming applications. Experimental results on simultaneous text-to-text re-translation demonstrate that our approach achieves up to 1.7x speedup compared to conventional auto-regressive re-translation without compromising quality. Additionally, it significantly reduces flickering by 80% by incorporating the display-only mask-k technique.