VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion

作者: Dimitrios Damianos, Leon Voukoutis, Georgios Paraskevopoulos, Vassilis Katsouros

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-09-19

💡 一句话要点

VOX-KRIKRI：通过连续融合统一语音和语言

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音LLM 多模态融合 连续空间融合 跨模态注意力 低资源语音识别

📋 核心要点

现有语音LLM依赖直接音频嵌入，忽略了音频和文本模态间的语义鸿沟，导致对齐困难。
提出一种连续融合框架，利用音频条件文本空间作为桥梁，通过跨模态注意力融合Whisper和LLM的隐藏状态。
构建了首个希腊语语音LLM VoxKrikri，并在希腊语ASR任务上取得了SOTA结果，相对提升约20%。

📝 摘要（中文）

本文提出了一种多模态融合框架，旨在通过连接预训练的基于解码器的大型语言模型（LLM）和诸如Whisper的声学编码器-解码器架构，构建具有语音功能的LLM。该方法没有直接使用音频嵌入，而是探索中间的音频条件文本空间，作为一种更有效的对齐机制。该方法完全在连续文本表示空间中运行，通过跨模态注意力将Whisper的隐藏解码器状态与LLM的隐藏解码器状态融合，并支持离线和流式模式。我们引入了 extit{VoxKrikri}，这是第一个希腊语语音LLM，并通过分析表明我们的方法有效地对齐了跨模态的表示。这些结果表明，连续空间融合是多语言和低资源语音LLM的一条有希望的途径，同时在希腊语自动语音识别方面取得了最先进的结果，在基准测试中平均提高了约20％。

🔬 方法详解

问题定义：现有语音LLM通常直接将音频嵌入输入到LLM中，这种直接融合忽略了音频和文本模态之间的语义差距，导致模型难以有效地对齐两种模态的信息。尤其是在低资源或多语言场景下，这种问题会更加突出。因此，如何更好地对齐语音和语言信息，构建更有效的语音LLM是一个关键问题。

核心思路：本文的核心思路是利用一个中间的音频条件文本空间作为桥梁，实现语音和语言信息的对齐。具体来说，就是将语音信息转换为文本表示，然后将这种文本表示与LLM的文本表示进行融合。这种方法可以更好地利用LLM强大的文本处理能力，同时避免了直接处理音频嵌入的困难。

技术框架：整个框架包含两个主要模块：Whisper声学模型和预训练的LLM。Whisper负责将语音转换为文本表示，并提取隐藏解码器状态。LLM负责处理文本信息，并生成最终的输出。这两个模块通过跨模态注意力机制进行连接，Whisper的隐藏状态作为query，LLM的隐藏状态作为key和value，从而实现信息的融合。该框架支持离线和流式两种模式。

关键创新：本文最重要的创新点在于提出了连续空间融合的方法，即在连续的文本表示空间中进行语音和语言信息的融合。与传统的直接融合音频嵌入的方法相比，这种方法可以更好地利用LLM的文本处理能力，并有效地对齐两种模态的信息。此外，本文还构建了第一个希腊语语音LLM VoxKrikri，为低资源语音LLM的研究做出了贡献。

关键设计：在跨模态注意力机制中，使用了标准的Scaled Dot-Product Attention。损失函数主要包括语音识别损失和语言模型损失。Whisper模型采用预训练的权重进行初始化，LLM也采用预训练的权重进行初始化，然后进行微调。在训练过程中，使用了数据增强技术，例如SpecAugment，以提高模型的鲁棒性。

📊 实验亮点

实验结果表明，该方法在希腊语自动语音识别任务上取得了最先进的结果，相比现有方法，平均相对提升了约20%。这表明该方法能够有效地对齐语音和语言信息，并提高语音LLM的性能。此外，对VoxKrikri的分析表明，该方法能够有效地对齐跨模态的表示。

🎯 应用场景

该研究成果可应用于语音助手、自动翻译、语音搜索等领域。特别是在多语言和低资源场景下，该方法具有重要的应用价值，可以帮助构建更有效的语音LLM，从而促进语音技术在这些场景下的发展。此外，该方法还可以扩展到其他模态的融合，例如视频和文本的融合。

📄 摘要（原文）

We present a multimodal fusion framework that bridges pre-trained decoder-based large language models (LLM) and acoustic encoder-decoder architectures such as Whisper, with the aim of building speech-enabled LLMs. Instead of directly using audio embeddings, we explore an intermediate audio-conditioned text space as a more effective mechanism for alignment. Our method operates fully in continuous text representation spaces, fusing Whisper's hidden decoder states with those of an LLM through cross-modal attention, and supports both offline and streaming modes. We introduce \textit{VoxKrikri}, the first Greek speech LLM, and show through analysis that our approach effectively aligns representations across modalities. These results highlight continuous space fusion as a promising path for multilingual and low-resource speech LLMs, while achieving state-of-the-art results for Automatic Speech Recognition in Greek, providing an average $\sim20\%$ relative improvement across benchmarks.

VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册