FASST: Fast LLM-based Simultaneous Speech Translation

📄 arXiv: 2408.09430v1 📥 PDF

作者: Siqi Ouyang, Xi Xu, Chinmay Dandekar, Lei Li

分类: cs.CL, cs.AI

发布日期: 2024-08-18


💡 一句话要点

FASST:一种基于快速LLM的同步语音翻译方法,提升质量-延迟权衡。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 同步语音翻译 流式语音识别 大型语言模型 因果编码 一致性掩码

📋 核心要点

  1. 现有同步语音翻译方法在高延迟或翻译质量方面存在不足,难以兼顾效率与准确性。
  2. FASST通过分块因果编码和一致性掩码,实现了流式语音输入的增量编码,避免了重复计算。
  3. 实验表明,FASST在MuST-C数据集上实现了最佳的质量-延迟平衡,显著优于现有方法。

📝 摘要(中文)

同步语音翻译(SST)接收流式语音输入并即时生成文本翻译。现有方法要么由于输入表示的重复计算而具有高延迟,要么在翻译质量上落后于离线语音翻译。本文提出FASST,一种基于快速大型语言模型的流式语音翻译方法。我们提出了分块因果语音编码和一致性掩码,以便可以增量地编码流式语音输入而无需重复计算。此外,我们开发了一种两阶段训练策略来优化FASST以进行同步推理。我们在MuST-C数据集上评估了FASST和多个强大的先前模型。实验结果表明,FASST实现了最佳的质量-延迟权衡。对于英语到西班牙语的翻译,在相同延迟下,它比之前的最佳模型平均提高了1.5 BLEU。

🔬 方法详解

问题定义:同步语音翻译(SST)需要在接收语音流的同时生成翻译文本。现有方法的主要痛点在于:为了保证翻译质量,需要对已接收的语音片段进行重复计算,导致延迟较高;而为了降低延迟,牺牲了翻译质量,无法达到离线翻译的水平。

核心思路:FASST的核心思路是设计一种能够增量式处理语音输入,避免重复计算的编码方式,同时利用大型语言模型(LLM)强大的翻译能力,从而在保证翻译质量的前提下,显著降低延迟。通过分块处理和一致性掩码,确保模型在流式推理过程中能够保持上下文的一致性。

技术框架:FASST主要包含以下几个模块:1) 分块因果语音编码器:将语音输入分割成块,并使用因果卷积进行编码,确保每个块的编码只依赖于之前的块,避免了未来的信息泄露。2) 一致性掩码:用于在训练过程中模拟流式推理,确保模型在只看到部分输入的情况下也能生成一致的翻译。3) 大型语言模型(LLM):作为翻译的核心模块,负责将编码后的语音表示转换为目标语言文本。4) 两阶段训练策略:首先使用离线数据进行预训练,然后使用同步数据进行微调,以优化模型在流式推理中的性能。

关键创新:FASST的关键创新在于:1) 分块因果语音编码:避免了对整个语音序列的重复编码,显著降低了计算复杂度。2) 一致性掩码:通过在训练过程中引入掩码,使模型能够更好地适应流式推理的场景,提高了翻译质量。与现有方法的本质区别在于,FASST能够在保证翻译质量的前提下,显著降低延迟,实现了更好的质量-延迟权衡。

关键设计:1) 分块大小:需要根据具体的语音数据和计算资源进行调整,以平衡计算复杂度和翻译质量。2) 一致性掩码的比例:需要根据训练数据的特点进行调整,以确保模型能够学习到足够的信息。3) 两阶段训练策略:需要仔细设计预训练和微调的数据集,以确保模型能够充分利用离线数据和同步数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FASST在MuST-C数据集上进行了评估,实验结果表明,FASST在相同的延迟下,比之前的最佳模型平均提高了1.5 BLEU(英语到西班牙语)。这表明FASST在质量-延迟权衡方面取得了显著的进步,为同步语音翻译领域带来了新的突破。

🎯 应用场景

FASST在实时会议、在线教育、跨语言交流等领域具有广泛的应用前景。它可以帮助人们克服语言障碍,实现更高效的沟通和协作。未来,FASST有望应用于智能客服、同声传译等领域,进一步提升人机交互的体验。

📄 摘要(原文)

Simultaneous speech translation (SST) takes streaming speech input and generates text translation on the fly. Existing methods either have high latency due to recomputation of input representations, or fall behind of offline ST in translation quality. In this paper, we propose FASST, a fast large language model based method for streaming speech translation. We propose blockwise-causal speech encoding and consistency mask, so that streaming speech input can be encoded incrementally without recomputation. Furthermore, we develop a two-stage training strategy to optimize FASST for simultaneous inference. We evaluate FASST and multiple strong prior models on MuST-C dataset. Experiment results show that FASST achieves the best quality-latency trade-off. It outperforms the previous best model by an average of 1.5 BLEU under the same latency for English to Spanish translation.