Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

作者: Alan Dao, Dinh Bach Vu, Huy Hoang Ha

分类: cs.CL, cs.SD, eess.AS

发布日期: 2024-10-20 (更新: 2025-04-04)

💡 一句话要点

Ichigo：混合模态早期融合的实时语音助手，显著降低语音问答延迟。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音助手 多模态融合 早期融合 Transformer 语音问答 实时性 语音识别

📋 核心要点

现有语音任务中，音频和文本模态的有效融合仍然是一个挑战，传统方法通常依赖复杂的级联系统或需要额外的适配器。
Ichigo通过token化的早期融合方法，将语音量化为离散token，并使用统一的Transformer架构处理语音和文本，实现跨模态的联合推理。
Ichigo在语音问答基准测试中取得了领先性能，显著降低了首次生成token的延迟至111毫秒，为实时语音助手应用提供了可能。

📝 摘要（中文）

大型语言模型（LLMs）彻底改变了自然语言处理，但由于音频和文本模态集成复杂性，其在语音任务中的应用仍然具有挑战性。本文介绍了Ichigo，一种混合模态模型，可以无缝处理交错的语音和文本序列。Ichigo采用token化的早期融合方法，将语音量化为离散token，并采用统一的基于Transformer的架构处理语音和文本模态。这种方法实现了跨模态的联合推理和生成，无需单独的适配器。我们提出了一种全面的训练方法，包括在多语言语音识别数据集上进行预训练，以及在精心设计的指令数据集上进行微调。Ichigo在语音问答基准测试中表现出最先进的性能，优于现有的开源语音语言模型，并实现了与级联系统相当的结果。值得注意的是，Ichigo首次生成token的延迟仅为111毫秒，远低于当前模型。我们的方法不仅推动了多模态AI领域的发展，也为小型研究团队有效贡献开源语音语言模型提供了一个框架。

🔬 方法详解

问题定义：现有语音助手通常采用级联系统，即先将语音转录为文本，再利用文本语言模型进行处理。这种方法存在延迟高、错误累积等问题。此外，直接将语音特征输入语言模型通常需要额外的适配器，增加了模型复杂性。因此，如何高效、低延迟地融合语音和文本信息，构建端到端的语音助手是本文要解决的问题。

核心思路：Ichigo的核心思路是采用混合模态早期融合的方法，将语音和文本都转化为token序列，然后使用统一的Transformer架构进行处理。通过将语音量化为离散token，可以避免直接处理连续的语音特征，从而简化模型结构，并实现语音和文本的无缝融合。这种设计使得模型能够同时理解和生成语音和文本，从而实现更自然的交互。

技术框架：Ichigo的整体架构是一个标准的Transformer模型，输入是交错的语音和文本token序列，输出是文本token序列。模型包含以下主要模块：1) 语音token化器：将语音信号转换为离散的token序列。2) 文本token化器：将文本转换为token序列。3) Transformer编码器：对语音和文本token序列进行编码，提取特征。4) Transformer解码器：根据编码后的特征生成文本token序列。

关键创新：Ichigo的关键创新在于其混合模态早期融合的方法。与传统的级联系统或需要额外适配器的模型不同，Ichigo通过将语音量化为离散token，并使用统一的Transformer架构处理语音和文本，实现了真正的端到端学习。这种方法不仅简化了模型结构，还提高了模型的性能和效率。

关键设计：Ichigo的关键设计包括：1) 使用SoundStream模型进行语音token化，将语音信号量化为离散的token序列。2) 使用SentencePiece模型进行文本token化。3) 使用标准的Transformer架构，包括多头注意力机制和前馈神经网络。4) 采用多阶段训练策略，包括在多语言语音识别数据集上进行预训练，以及在指令数据集上进行微调。损失函数主要为交叉熵损失。

🖼️ 关键图片

📊 实验亮点

Ichigo在语音问答基准测试中表现出最先进的性能，优于现有的开源语音语言模型。更重要的是，Ichigo实现了极低的延迟，首次生成token的延迟仅为111毫秒，远低于当前模型。这使得Ichigo成为实时语音助手应用的理想选择。实验结果表明，Ichigo在性能和效率方面都具有显著优势。

🎯 应用场景

Ichigo的潜在应用领域包括实时语音助手、智能客服、语音翻译、语音游戏等。其低延迟和高性能使其能够应用于对实时性要求较高的场景。此外，该研究为小型研究团队开发开源语音语言模型提供了一个可行的框架，有助于推动语音AI技术的普及和发展。未来，可以进一步探索Ichigo在更多模态融合任务中的应用，例如语音与图像、语音与视频等。

📄 摘要（原文）

Large Language Models (LLMs) have revolutionized natural language processing, but their application to speech-based tasks remains challenging due to the complexities of integrating audio and text modalities. This paper introduces Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes speech into discrete tokens and employs a uniform transformer-based architecture for both speech and text modalities. This method enables joint reasoning and generation across modalities without the need for separate adapters. We present a comprehensive training methodology, including pre-training on multilingual speech recognition datasets and fine-tuning on a curated instruction dataset. Ichigo demonstrates state-of-the-art performance on speech question-answering benchmarks, outperforming existing open-source speech language models and achieving comparable results to cascaded systems. Notably, Ichigo exhibits a latency of just 111 ms to first token generation, significantly lower than current models. Our approach not only advances the field of multimodal AI but also provides a framework for smaller research teams to contribute effectively to open-source speech-language models.

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理