DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs

📄 arXiv: 2605.31432v1 📥 PDF

作者: Sara Papi, Luisa Bentivogli

分类: cs.CL, cs.AI, cs.SD

发布日期: 2026-05-29


💡 一句话要点

提出DOA:一种免训练的解码器自注意力策略,用于SpeechLLM的长文本同步翻译

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 同步语音翻译 SpeechLLM 自注意力 流式策略 长文本翻译

📋 核心要点

  1. 现有SimulST方法依赖编码器-解码器模型,而SpeechLLM缺乏显式对齐信号。
  2. DOA通过解码器自注意力导出代理对齐,无需训练即可指导流式翻译策略。
  3. 实验表明,DOA在长文本SimulST中实现了接近离线翻译的质量,且延迟较低。

📝 摘要(中文)

同步语音到文本翻译(SimulST)在语音仍在进行时生成翻译,需要一种流式策略来决定何时读取和何时写入。目前最先进的方法依赖于基于注意力的编码器-解码器模型,其中交叉注意力提供显式的对齐信号。相比之下,语音大型语言模型(SpeechLLM)是仅依赖于自注意力的解码器架构。这就提出了一个核心问题:解码器自注意力是否包含足够稳定的对齐信号来指导流式策略。此外,现有方法通常依赖于基于训练的适配或启发式wait-$k$策略,并且尚未在长文本设置中进行验证。为了填补这些空白,我们提出了解码器自注意力(DOA),这是一种免训练策略,它通过从自注意力中导出代理对齐,从而能够使用现成的SpeechLLM进行长文本同步翻译。在Phi4-Multimodal和Qwen3-Omni上的实验表明,DOA为支持流式决策提供了有效的对齐信号,从而实现了低延迟的长文本SimulST,其质量接近于离线解码,而无需重新训练。

🔬 方法详解

问题定义:现有的同步语音翻译(SimulST)方法,特别是针对长文本的翻译,通常依赖于编码器-解码器结构,其中交叉注意力机制提供了显式的对齐信息,用于指导翻译过程中的读取和写入决策。然而,新兴的SpeechLLM是纯解码器架构,缺乏这种显式的对齐信号。因此,如何利用SpeechLLM进行高效的、低延迟的长文本SimulST是一个挑战。此外,现有方法通常需要针对特定任务进行训练或依赖启发式策略,缺乏通用性和适应性。

核心思路:DOA的核心思路是利用解码器自注意力机制中蕴含的对齐信息,作为指导SimulST流式策略的代理信号。DOA假设解码器在生成翻译的过程中,其自注意力权重反映了源语音和目标文本之间的隐含对齐关系。通过分析自注意力权重,可以推断出哪些源语音片段与当前生成的翻译片段相关,从而决定何时读取更多语音输入,何时生成更多翻译。

技术框架:DOA方法主要包含以下几个阶段:1) 语音输入:接收连续的语音输入流。2) 特征提取:利用SpeechLLM的语音编码器提取语音特征。3) 解码器自注意力分析:分析解码器自注意力层的注意力权重,提取代理对齐信息。4) 流式策略决策:基于提取的对齐信息,决定何时读取更多语音输入(READ),何时生成更多翻译(WRITE)。5) 翻译生成:利用SpeechLLM的解码器生成翻译文本。整个过程是流式的,即在接收语音输入的同时进行翻译生成。

关键创新:DOA的关键创新在于提出了一种免训练的流式策略,它仅依赖于解码器自注意力机制,无需额外的训练或微调。这使得DOA能够直接应用于现成的SpeechLLM,而无需进行模型修改或数据收集。此外,DOA通过分析自注意力权重,有效地提取了代理对齐信息,从而实现了高质量、低延迟的长文本SimulST。与现有方法相比,DOA具有更高的通用性和适应性。

关键设计:DOA的关键设计在于如何从自注意力权重中提取有效的代理对齐信息。具体来说,DOA计算每个解码器层中,每个目标token对所有源语音token的平均注意力权重。然后,DOA使用一个阈值来判断哪些源语音token与当前目标token相关。如果某个源语音token的平均注意力权重超过阈值,则认为该token与当前目标token相关。基于这些相关性信息,DOA可以决定何时读取更多语音输入,何时生成更多翻译。阈值的选择是一个重要的超参数,需要根据具体的SpeechLLM和翻译任务进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,DOA在Phi4-Multimodal和Qwen3-Omni两个SpeechLLM上均取得了良好的效果。DOA实现了接近离线翻译的质量,同时保持了较低的延迟。与wait-$k$等启发式策略相比,DOA能够更有效地利用语音信息,从而提高翻译的准确性。具体性能数据需要在论文中查找。

🎯 应用场景

DOA方法具有广泛的应用前景,可用于实时会议翻译、在线教育、语音助手等领域。它能够利用现有的SpeechLLM,实现低延迟、高质量的同步语音翻译,极大地提升人机交互的效率和用户体验。未来,DOA还可以与其他技术相结合,例如语音增强、噪声抑制等,进一步提高翻译的准确性和鲁棒性。

📄 摘要(原文)

Simultaneous speech-to-text translation (SimulST) generates translations while speech is still unfolding, requiring a streaming policy that decides when to read and when to write. State-of-the-art approaches rely on attention-based encoder-decoder models where cross-attention provides explicit alignment signals. In contrast, Speech Large Language Models (SpeechLLMs) are decoder-only architectures relying solely on self-attention. This raises a central question: whether decoder self-attention contains sufficiently stable alignment signals to guide the streaming policy. Moreover, existing approaches typically rely on training-based adaptations or heuristic wait-$k$ policies and have not been validated in long-form settings. To fill these gaps, we propose Decoder-Only Attention (DOA), a training-free policy that enables long-form simultaneous translation with off-the-shelf SpeechLLMs by deriving a proxy alignment from self-attention. Experiments on Phi4-Multimodal and Qwen3-Omni show that DOA provides an effective alignment signal for supporting streaming decisions, enabling low-latency long-form SimulST with quality close to offline decoding without retraining.