Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation
作者: Xuanchen Li, Tianrui Wang, Yuheng Lu, Zikang Huang, Yu Jiang, Chenghan Lin, Chenrui Cui, Ziyang Ma, Xingyu Ma, Chunyu Qiang, Guochen Yu, Xie Chen, Longbiao Wang, Jianwu Dang
分类: cs.SD, cs.AI
发布日期: 2026-06-09
🔗 代码/项目: GITHUB
💡 一句话要点
提出ELF-S2T以解决语音识别与翻译中的离散生成问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)
关键词: 语音识别 语音翻译 连续目标生成 音频条件模型 深度学习
📋 核心要点
- 现有的语音到文本系统主要生成离散的文本标记,限制了其在连续目标生成中的应用。
- ELF-S2T通过音频条件的连续目标生成模型,结合音频和文本潜在表示,提升了语音识别和翻译的效果。
- 在LibriSpeech和CoVoST2上的实验表明,ELF-S2T在ASR和S2TT任务中表现出色,且错误分析揭示了识别与翻译之间的共同语义映射过程。
📝 摘要(中文)
语音到文本(S2T)系统通常生成离散文本标记,而连续目标语言建模在生成过程中使用连续空间,但其在S2T中的潜力尚未被探索。为此,本文提出了ELF-S2T,一种音频条件的连续目标生成模型。该模型基于预训练的嵌入语言流(ELF)骨干,利用冻结的Whisper编码器和单线性投影器处理语音,将音频条件与噪声文本潜在表示结合进行上下文流匹配去噪。为防止模型过度依赖预训练文本上下文,训练中引入音频强制,并在推理时通过无分类器引导进一步增强音频条件。实验结果表明,ELF-S2T在LibriSpeech和CoVoST2数据集上实现了竞争力的ASR和S2TT性能。
🔬 方法详解
问题定义:本文旨在解决现有语音到文本(S2T)系统生成离散文本标记的局限性,探索连续目标生成在S2T中的应用潜力。现有方法在处理语音时,往往忽视了连续潜在空间的优势,导致性能不足。
核心思路:ELF-S2T模型通过音频条件生成连续目标,利用预训练的ELF骨干网络,结合音频和文本信息进行流匹配去噪,提升了语音识别和翻译的准确性。
技术框架:ELF-S2T的整体架构包括三个主要模块:冻结的Whisper编码器用于语音特征提取,单线性投影器用于将音频条件与文本潜在表示结合,最后通过流匹配去噪进行生成。
关键创新:该研究的核心创新在于引入音频强制训练和无分类器引导推理,增强了模型对音频条件的依赖,从而改善了生成质量。这一设计与传统的离散生成方法形成了鲜明对比。
关键设计:在模型设计中,采用了特定的损失函数来平衡音频和文本信息的影响,并通过调整超参数优化模型性能。此外,模型的训练过程强调了音频条件的重要性,以避免过度依赖文本上下文。
🖼️ 关键图片
📊 实验亮点
在LibriSpeech和CoVoST2数据集上的实验结果显示,ELF-S2T在ASR和S2TT任务中表现出色,取得了与现有最先进模型相当的性能,且在错误分析中揭示了识别与翻译之间的共同语义映射过程,表明其在连续目标生成方面的有效性。
🎯 应用场景
该研究的潜在应用领域包括实时语音翻译、语音助手和多语言学习工具等。通过提升语音识别和翻译的准确性,ELF-S2T能够为用户提供更流畅的交互体验,推动智能语音技术的发展。未来,该技术可能在跨语言交流和无障碍沟通中发挥重要作用。
📄 摘要(原文)
Speech-to-text (S2T) systems for recognition (ASR) and translation (S2TT) typically generate discrete text tokens. In contrast, continuous-target language modelling performs generation in a continuous space, yet its potential for S2T remains unexplored. To bridge this gap, we propose ELF-S2T, an audio-conditioned continuous-target generative model for S2T. Built upon the pre-trained Embedded Language Flows (ELF) backbone, ELF-S2T processes speech via a frozen Whisper encoder and a single linear projector, prepending the resulting audio condition to the noisy text latent for in-context, flow-matching denoising. To prevent the model from over-relying on its pre-trained text context, we introduce audio forcing during training, and further amplify the audio condition via classifier-free guidance at inference. Experiments on LibriSpeech and CoVoST2 show that ELF-S2T achieves competitive ASR and S2TT performance. Crucially, our error analysis reveals that, although ASR and S2TT errors look very different on the surface, both stem from the same underlying cause, a close distance confusion in the continuous latent space. This finding naturally aligns with the continuous representation generation paradigm, indicating a common semantic mapping process beneath recognition and translation. Our code and pretrained models are publicly available at https://github.com/Sslnon/ELF-S2T.