VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion

📄 arXiv: 2509.15667v1 📥 PDF

作者: Dimitrios Damianos, Leon Voukoutis, Georgios Paraskevopoulos, Vassilis Katsouros

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-09-19


💡 一句话要点

VOX-KRIKRI:通过连续融合统一语音和语言

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音LLM 多模态融合 连续空间融合 跨模态注意力 低资源语音识别

📋 核心要点

  1. 现有语音LLM依赖直接音频嵌入,忽略了音频和文本模态间的语义鸿沟,导致对齐困难。
  2. 提出一种连续融合框架,利用音频条件文本空间作为桥梁,通过跨模态注意力融合Whisper和LLM的隐藏状态。
  3. 构建了首个希腊语语音LLM VoxKrikri,并在希腊语ASR任务上取得了SOTA结果,相对提升约20%。

📝 摘要(中文)

本文提出了一种多模态融合框架,旨在通过连接预训练的基于解码器的大型语言模型(LLM)和诸如Whisper的声学编码器-解码器架构,构建具有语音功能的LLM。该方法没有直接使用音频嵌入,而是探索中间的音频条件文本空间,作为一种更有效的对齐机制。该方法完全在连续文本表示空间中运行,通过跨模态注意力将Whisper的隐藏解码器状态与LLM的隐藏解码器状态融合,并支持离线和流式模式。我们引入了 extit{VoxKrikri},这是第一个希腊语语音LLM,并通过分析表明我们的方法有效地对齐了跨模态的表示。这些结果表明,连续空间融合是多语言和低资源语音LLM的一条有希望的途径,同时在希腊语自动语音识别方面取得了最先进的结果,在基准测试中平均提高了约20%。

🔬 方法详解

问题定义:现有语音LLM通常直接将音频嵌入输入到LLM中,这种直接融合忽略了音频和文本模态之间的语义差距,导致模型难以有效地对齐两种模态的信息。尤其是在低资源或多语言场景下,这种问题会更加突出。因此,如何更好地对齐语音和语言信息,构建更有效的语音LLM是一个关键问题。

核心思路:本文的核心思路是利用一个中间的音频条件文本空间作为桥梁,实现语音和语言信息的对齐。具体来说,就是将语音信息转换为文本表示,然后将这种文本表示与LLM的文本表示进行融合。这种方法可以更好地利用LLM强大的文本处理能力,同时避免了直接处理音频嵌入的困难。

技术框架:整个框架包含两个主要模块:Whisper声学模型和预训练的LLM。Whisper负责将语音转换为文本表示,并提取隐藏解码器状态。LLM负责处理文本信息,并生成最终的输出。这两个模块通过跨模态注意力机制进行连接,Whisper的隐藏状态作为query,LLM的隐藏状态作为key和value,从而实现信息的融合。该框架支持离线和流式两种模式。

关键创新:本文最重要的创新点在于提出了连续空间融合的方法,即在连续的文本表示空间中进行语音和语言信息的融合。与传统的直接融合音频嵌入的方法相比,这种方法可以更好地利用LLM的文本处理能力,并有效地对齐两种模态的信息。此外,本文还构建了第一个希腊语语音LLM VoxKrikri,为低资源语音LLM的研究做出了贡献。

关键设计:在跨模态注意力机制中,使用了标准的Scaled Dot-Product Attention。损失函数主要包括语音识别损失和语言模型损失。Whisper模型采用预训练的权重进行初始化,LLM也采用预训练的权重进行初始化,然后进行微调。在训练过程中,使用了数据增强技术,例如SpecAugment,以提高模型的鲁棒性。

📊 实验亮点

实验结果表明,该方法在希腊语自动语音识别任务上取得了最先进的结果,相比现有方法,平均相对提升了约20%。这表明该方法能够有效地对齐语音和语言信息,并提高语音LLM的性能。此外,对VoxKrikri的分析表明,该方法能够有效地对齐跨模态的表示。

🎯 应用场景

该研究成果可应用于语音助手、自动翻译、语音搜索等领域。特别是在多语言和低资源场景下,该方法具有重要的应用价值,可以帮助构建更有效的语音LLM,从而促进语音技术在这些场景下的发展。此外,该方法还可以扩展到其他模态的融合,例如视频和文本的融合。

📄 摘要(原文)

We present a multimodal fusion framework that bridges pre-trained decoder-based large language models (LLM) and acoustic encoder-decoder architectures such as Whisper, with the aim of building speech-enabled LLMs. Instead of directly using audio embeddings, we explore an intermediate audio-conditioned text space as a more effective mechanism for alignment. Our method operates fully in continuous text representation spaces, fusing Whisper's hidden decoder states with those of an LLM through cross-modal attention, and supports both offline and streaming modes. We introduce \textit{VoxKrikri}, the first Greek speech LLM, and show through analysis that our approach effectively aligns representations across modalities. These results highlight continuous space fusion as a promising path for multilingual and low-resource speech LLMs, while achieving state-of-the-art results for Automatic Speech Recognition in Greek, providing an average $\sim20\%$ relative improvement across benchmarks.