VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion

作者: Dimitrios Damianos, Leon Voukoutis, Georgios Paraskevopoulos, Vassilis Katsouros

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-09-19

💡 一句话要点

VOX-KRIKRI：通过连续融合统一语音和语言

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音LLM 多模态融合 跨模态注意力 连续空间融合 自动语音识别 低资源语音 希腊语

📋 核心要点

现有语音LLM通常直接使用音频嵌入，忽略了语音和语言之间的语义鸿沟，导致对齐效果不佳。
论文提出一种连续融合框架，通过中间的音频条件文本空间对齐语音和语言表示，提升跨模态对齐效果。
实验表明，该方法在希腊语语音识别上取得了SOTA结果，相对提升约20%，验证了其有效性。

📝 摘要（中文）

本文提出了一种多模态融合框架，旨在通过连接预训练的基于解码器的大型语言模型（LLM）和声学编码器-解码器架构（如Whisper）来构建支持语音的LLM。该方法没有直接使用音频嵌入，而是探索中间的音频条件文本空间，作为更有效的对齐机制。该方法完全在连续文本表示空间中运行，通过跨模态注意力将Whisper的隐藏解码器状态与LLM的隐藏状态融合，并支持离线和流式模式。我们推出了第一个希腊语语音LLM——VoxKrikri，并通过分析表明，我们的方法有效地对齐了跨模态的表示。这些结果表明，连续空间融合是多语言和低资源语音LLM的一个有希望的途径，同时在希腊语自动语音识别方面取得了最先进的结果，在基准测试中平均提高了约20%的相对性能。

🔬 方法详解

问题定义：现有语音LLM构建方法，如直接使用音频嵌入，难以有效对齐语音和语言两种模态的信息。这导致模型在处理语音相关任务时，性能受到限制，尤其是在多语言和低资源场景下，问题更为突出。现有方法的痛点在于缺乏有效的跨模态对齐机制，无法充分利用预训练LLM的语言能力。

核心思路：论文的核心思路是利用一个中间的音频条件文本空间，作为语音和语言模态之间的桥梁。通过将语音信息转换为文本表示，并以此调节LLM的文本处理过程，实现更有效的跨模态对齐。这种方法避免了直接在原始音频特征空间进行融合，从而降低了学习难度，并更好地利用了预训练LLM的知识。

技术框架：整体框架包含一个声学编码器-解码器（如Whisper）和一个预训练的LLM。Whisper负责将语音转换为隐藏解码器状态，这些状态随后被用于调节LLM的文本处理过程。具体而言，通过跨模态注意力机制，将Whisper的隐藏状态与LLM的隐藏状态融合。整个过程在连续文本表示空间中进行，支持离线和流式两种模式。

关键创新：最重要的技术创新点在于提出了中间音频条件文本空间的概念，并将其应用于跨模态融合。与直接融合音频嵌入的方法相比，这种方法能够更好地对齐语音和语言的语义信息，从而提升模型的性能。此外，该框架具有通用性，可以应用于不同的声学模型和LLM。

关键设计：论文使用了跨模态注意力机制来实现Whisper隐藏状态和LLM隐藏状态的融合。具体来说，Whisper的隐藏状态作为query，LLM的隐藏状态作为key和value，通过注意力机制计算融合后的表示。损失函数方面，论文可能采用了标准的语言模型损失函数，并可能结合了其他辅助损失函数来提升模型的性能。具体的网络结构细节和参数设置在论文中应该有更详细的描述。

🖼️ 关键图片

📊 实验亮点

论文构建了第一个希腊语语音LLM——VoxKrikri，并在希腊语自动语音识别任务上取得了最先进的结果。实验结果表明，该方法在多个基准测试中平均提高了约20%的相对性能，显著优于现有方法，验证了所提出框架的有效性。

🎯 应用场景

该研究成果可应用于多种场景，如语音助手、语音翻译、语音搜索等。特别是在多语言和低资源场景下，该方法具有更大的应用潜力。通过构建支持语音的LLM，可以实现更自然、更智能的人机交互，并为语音相关任务提供更强大的解决方案。未来，该方法有望推动语音技术在各个领域的广泛应用。

📄 摘要（原文）

We present a multimodal fusion framework that bridges pre-trained decoder-based large language models (LLM) and acoustic encoder-decoder architectures such as Whisper, with the aim of building speech-enabled LLMs. Instead of directly using audio embeddings, we explore an intermediate audio-conditioned text space as a more effective mechanism for alignment. Our method operates fully in continuous text representation spaces, fusing Whisper's hidden decoder states with those of an LLM through cross-modal attention, and supports both offline and streaming modes. We introduce \textit{VoxKrikri}, the first Greek speech LLM, and show through analysis that our approach effectively aligns representations across modalities. These results highlight continuous space fusion as a promising path for multilingual and low-resource speech LLMs, while achieving state-of-the-art results for Automatic Speech Recognition in Greek, providing an average $\sim20\%$ relative improvement across benchmarks.

VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理