InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Model
作者: Siqi Ouyang, Xi Xu, Lei Li
分类: cs.CL, cs.AI
发布日期: 2025-03-04 (更新: 2025-06-16)
备注: ACL 2025 Findings
🔗 代码/项目: GITHUB
💡 一句话要点
InfiniSST:利用大语言模型实现无界语音的同步翻译
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 同步语音翻译 无界语音 大语言模型 多轮对话 键值缓存
📋 核心要点
- 现有同步语音翻译方法依赖预分割语音,限制了在真实场景中的应用。
- InfiniSST将同步语音翻译建模为多轮对话,以处理无界语音流。
- 实验表明,InfiniSST在保持翻译质量的同时,显著降低了计算感知延迟。
📝 摘要(中文)
由于需要有效地处理历史语音上下文和过去的翻译,以便平衡质量和延迟(包括计算开销),因此无界流式语音的同步翻译仍然是一个具有挑战性的问题。大多数先前的工作都假设预先分割的语音,限制了它们的实际应用。在本文中,我们提出了一种新颖的方法InfiniSST,它将SST公式化为一个多轮对话任务,从而实现无缝的无界语音翻译。我们在训练期间使用多延迟增强从MuST-C构建翻译轨迹和鲁棒的片段,并开发了一种键值(KV)缓存管理策略,以促进高效的推理。在MuST-C En-Es,En-De和En-Zh上的实验表明,与基线相比,InfiniSST在保持相同翻译质量的同时,将计算感知延迟降低了0.5到1秒。消融研究进一步验证了我们的数据构建和缓存管理策略的贡献。我们发布了代码和演示,网址为https://github.com/LeiLiLab/InfiniSST
🔬 方法详解
问题定义:论文旨在解决无界流式语音的同步翻译问题。现有方法通常依赖于预先分割的语音,这在实际应用中是不切实际的,因为语音流是连续的,没有明确的边界。此外,如何有效地利用历史语音上下文和翻译信息,在保证翻译质量的同时降低延迟,也是一个挑战。
核心思路:论文的核心思路是将同步语音翻译(SST)任务建模为一个多轮对话任务。通过这种方式,模型可以自然地处理连续的语音流,并利用对话历史来提高翻译的连贯性和准确性。同时,论文还设计了键值(KV)缓存管理策略,以提高推理效率,降低计算开销。
技术框架:InfiniSST的整体框架包含以下几个主要部分:1) 数据构建:利用MuST-C数据集,通过多延迟增强技术构建翻译轨迹和鲁棒的片段,模拟真实场景下的语音流。2) 模型训练:使用构建的数据集训练一个基于Transformer的大语言模型,使其能够执行多轮对话式的同步语音翻译。3) KV缓存管理:在推理阶段,使用KV缓存来存储历史语音和翻译信息,避免重复计算,提高推理速度。
关键创新:论文的关键创新在于将同步语音翻译任务建模为多轮对话任务,并设计了相应的训练数据构建方法和KV缓存管理策略。这种方法能够有效地处理无界语音流,并在保证翻译质量的同时降低延迟。与现有方法相比,InfiniSST不需要预先分割语音,更适用于实际应用。
关键设计:在数据构建方面,论文使用了多延迟增强技术,模拟了不同延迟下的翻译需求。在KV缓存管理方面,论文设计了一种高效的缓存更新和检索机制,以最大限度地利用历史信息,减少计算量。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InfiniSST在MuST-C En-Es, En-De, 和 En-Zh数据集上,与基线方法相比,在保持相同翻译质量的前提下,将计算感知延迟降低了0.5到1秒。消融实验验证了数据构建和KV缓存管理策略的有效性,证明了InfiniSST的优越性。
🎯 应用场景
InfiniSST具有广泛的应用前景,例如实时会议翻译、在线语音助手、跨语言语音聊天等。该研究可以提高人机交互的效率和便利性,促进不同语言之间的交流和理解。未来,该技术有望应用于更多领域,例如智能客服、教育培训等,为人们的生活和工作带来更多便利。
📄 摘要(原文)
Simultaneous translation of unbounded streaming speech remains a challenging problem due to the need for effectively processing the history speech context and past translations so that quality and latency, including computation overhead, can be balanced. Most prior works assume pre-segmented speech, limiting their real-world applicability. In this paper, we propose InfiniSST, a novel approach that formulates SST as a multi-turn dialogue task, enabling seamless translation of unbounded speech. We construct translation trajectories and robust segments from MuST-C with multi-latency augmentation during training and develop a key-value (KV) cache management strategy to facilitate efficient inference. Experiments on MuST-C En-Es, En-De, and En-Zh demonstrate that InfiniSST reduces computation-aware latency by 0.5 to 1 second while maintaining the same translation quality compared to baselines. Ablation studies further validate the contributions of our data construction and cache management strategy. We release the code and demo at https://github.com/LeiLiLab/InfiniSST