DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs

作者: Sara Papi, Luisa Bentivogli

分类: cs.CL, cs.AI, cs.SD

发布日期: 2026-05-29

💡 一句话要点

提出DOA：一种免训练的解码器自注意力策略，用于SpeechLLM的长文本同步翻译

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 同步语音翻译 SpeechLLM 自注意力 流式策略 长文本翻译

📋 核心要点

现有SimulST方法依赖编码器-解码器模型，而SpeechLLM缺乏显式对齐信号。
DOA通过解码器自注意力导出代理对齐，无需训练即可指导流式翻译策略。
实验表明，DOA在长文本SimulST中实现了接近离线翻译的质量，且延迟较低。

📝 摘要（中文）

同步语音到文本翻译（SimulST）在语音仍在进行时生成翻译，需要一种流式策略来决定何时读取和何时写入。目前最先进的方法依赖于基于注意力的编码器-解码器模型，其中交叉注意力提供显式的对齐信号。相比之下，语音大型语言模型（SpeechLLM）是仅依赖于自注意力的解码器架构。这就提出了一个核心问题：解码器自注意力是否包含足够稳定的对齐信号来指导流式策略。此外，现有方法通常依赖于基于训练的适配或启发式wait-$k$策略，并且尚未在长文本设置中进行验证。为了填补这些空白，我们提出了解码器自注意力（DOA），这是一种免训练策略，它通过从自注意力中导出代理对齐，从而能够使用现成的SpeechLLM进行长文本同步翻译。在Phi4-Multimodal和Qwen3-Omni上的实验表明，DOA为支持流式决策提供了有效的对齐信号，从而实现了低延迟的长文本SimulST，其质量接近于离线解码，而无需重新训练。

🔬 方法详解

问题定义：现有的同步语音翻译（SimulST）方法，特别是针对长文本的翻译，通常依赖于编码器-解码器结构，其中交叉注意力机制提供了显式的对齐信息，用于指导翻译过程中的读取和写入决策。然而，新兴的SpeechLLM是纯解码器架构，缺乏这种显式的对齐信号。因此，如何利用SpeechLLM进行高效的、低延迟的长文本SimulST是一个挑战。此外，现有方法通常需要针对特定任务进行训练或依赖启发式策略，缺乏通用性和适应性。

核心思路：DOA的核心思路是利用解码器自注意力机制中蕴含的对齐信息，作为指导SimulST流式策略的代理信号。DOA假设解码器在生成翻译的过程中，其自注意力权重反映了源语音和目标文本之间的隐含对齐关系。通过分析自注意力权重，可以推断出哪些源语音片段与当前生成的翻译片段相关，从而决定何时读取更多语音输入，何时生成更多翻译。

技术框架：DOA方法主要包含以下几个阶段：1) 语音输入：接收连续的语音输入流。2) 特征提取：利用SpeechLLM的语音编码器提取语音特征。3) 解码器自注意力分析：分析解码器自注意力层的注意力权重，提取代理对齐信息。4) 流式策略决策：基于提取的对齐信息，决定何时读取更多语音输入（READ），何时生成更多翻译（WRITE）。5) 翻译生成：利用SpeechLLM的解码器生成翻译文本。整个过程是流式的，即在接收语音输入的同时进行翻译生成。

关键创新：DOA的关键创新在于提出了一种免训练的流式策略，它仅依赖于解码器自注意力机制，无需额外的训练或微调。这使得DOA能够直接应用于现成的SpeechLLM，而无需进行模型修改或数据收集。此外，DOA通过分析自注意力权重，有效地提取了代理对齐信息，从而实现了高质量、低延迟的长文本SimulST。与现有方法相比，DOA具有更高的通用性和适应性。

关键设计：DOA的关键设计在于如何从自注意力权重中提取有效的代理对齐信息。具体来说，DOA计算每个解码器层中，每个目标token对所有源语音token的平均注意力权重。然后，DOA使用一个阈值来判断哪些源语音token与当前目标token相关。如果某个源语音token的平均注意力权重超过阈值，则认为该token与当前目标token相关。基于这些相关性信息，DOA可以决定何时读取更多语音输入，何时生成更多翻译。阈值的选择是一个重要的超参数，需要根据具体的SpeechLLM和翻译任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DOA在Phi4-Multimodal和Qwen3-Omni两个SpeechLLM上均取得了良好的效果。DOA实现了接近离线翻译的质量，同时保持了较低的延迟。与wait-$k$等启发式策略相比，DOA能够更有效地利用语音信息，从而提高翻译的准确性。具体性能数据需要在论文中查找。

🎯 应用场景

DOA方法具有广泛的应用前景，可用于实时会议翻译、在线教育、语音助手等领域。它能够利用现有的SpeechLLM，实现低延迟、高质量的同步语音翻译，极大地提升人机交互的效率和用户体验。未来，DOA还可以与其他技术相结合，例如语音增强、噪声抑制等，进一步提高翻译的准确性和鲁棒性。

📄 摘要（原文）

Simultaneous speech-to-text translation (SimulST) generates translations while speech is still unfolding, requiring a streaming policy that decides when to read and when to write. State-of-the-art approaches rely on attention-based encoder-decoder models where cross-attention provides explicit alignment signals. In contrast, Speech Large Language Models (SpeechLLMs) are decoder-only architectures relying solely on self-attention. This raises a central question: whether decoder self-attention contains sufficiently stable alignment signals to guide the streaming policy. Moreover, existing approaches typically rely on training-based adaptations or heuristic wait-$k$ policies and have not been validated in long-form settings. To fill these gaps, we propose Decoder-Only Attention (DOA), a training-free policy that enables long-form simultaneous translation with off-the-shelf SpeechLLMs by deriving a proxy alignment from self-attention. Experiments on Phi4-Multimodal and Qwen3-Omni show that DOA provides an effective alignment signal for supporting streaming decisions, enabling low-latency long-form SimulST with quality close to offline decoding without retraining.

DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理