MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

📄 arXiv: 2509.25131v1 📥 PDF

作者: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia

分类: cs.SD, cs.AI, cs.CL, cs.CV, cs.MM

发布日期: 2025-09-29

备注: Code is available at https://github.com/dvlab-research/MGM-Omni


💡 一句话要点

MGM-Omni:面向个性化长时程语音的通用多模态大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 语音生成 长时程语音 个性化语音 零样本学习 大语言模型 跨模态交互 流式语音生成

📋 核心要点

  1. 现有语音生成方法通常采用级联流程,割裂了多模态推理与语音合成,导致效率低下。
  2. MGM-Omni采用“脑-口”双轨架构,解耦多模态推理和实时语音生成,实现高效跨模态交互和低延迟流式生成。
  3. 实验表明,MGM-Omni在音色保持、语音自然度、上下文感知以及长格式音频理解等方面优于现有开源模型。

📝 摘要(中文)

本文提出了MGM-Omni,一个统一的通用多模态大语言模型,用于多模态理解和富有表现力的长时程语音生成。与隔离语音合成的级联流程不同,MGM-Omni采用“脑-口”设计,具有双轨、基于token的架构,将多模态推理与实时语音生成干净地解耦。这种设计实现了高效的跨模态交互和低延迟的流式语音生成。在理解方面,统一的训练策略与双音频编码器设计相结合,实现了跨不同声学条件的长格式音频感知。在生成方面,基于块的并行解码方案缩小了文本-语音token速率差距,加速了推理,并支持具有稳定音色的流式零样本语音克隆,且能维持较长时间。与同期的工作相比,MGM-Omni以显著的数据高效训练实现了这些能力。大量实验表明,MGM-Omni在跨扩展序列保持音色身份、生成自然且上下文感知的语音以及实现卓越的长格式音频和通用多模态理解方面,优于现有的开源模型。MGM-Omni为通用多模态理解和可控的个性化长时程语音生成建立了一种高效的端到端范例。

🔬 方法详解

问题定义:现有语音生成系统,特别是长时程语音生成,通常采用级联的pipeline,将多模态理解和语音合成割裂开来。这种方式导致信息传递效率低,难以实现实时的、个性化的语音生成。此外,现有方法在处理长时程语音时,音色容易发生漂移,难以保持一致性。

核心思路:MGM-Omni的核心思路是采用一个统一的、端到端的模型,同时进行多模态理解和语音生成。通过“脑-口”双轨架构,将多模态推理和语音生成解耦,使得模型可以高效地进行跨模态交互,并实现低延迟的流式语音生成。这种设计允许模型在理解上下文信息的同时,生成自然、流畅且音色稳定的长时程语音。

技术框架:MGM-Omni的整体架构包含两个主要部分:多模态理解模块和语音生成模块。多模态理解模块负责处理包括文本、音频等多种输入模态的信息,并将其编码成统一的表示。语音生成模块则基于这些表示生成语音。模型采用token-based的架构,使得多模态信息和语音信息可以在token级别进行交互。此外,模型还采用了chunk-based的并行解码方案,加速推理过程。

关键创新:MGM-Omni的关键创新在于其“脑-口”双轨架构和统一的训练策略。双轨架构实现了多模态推理和语音生成的解耦,使得模型可以更加高效地进行跨模态交互。统一的训练策略使得模型可以在一个端到端的框架下同时学习多模态理解和语音生成,避免了级联pipeline中的信息损失。此外,chunk-based并行解码方案显著提升了推理速度,支持流式语音生成。

关键设计:MGM-Omni采用了双音频编码器设计,以适应不同的声学条件。在训练过程中,模型采用了统一的损失函数,同时优化多模态理解和语音生成。Chunk-based并行解码方案的关键在于将长序列分割成多个chunk,并并行地解码这些chunk,从而加速推理过程。具体的chunk大小和并行度需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MGM-Omni在长时程语音生成方面表现出色,能够保持音色身份,生成自然且上下文感知的语音。实验表明,MGM-Omni在长格式音频和通用多模态理解方面优于现有的开源模型。此外,MGM-Omni以显著的数据高效训练实现了这些能力,降低了训练成本。

🎯 应用场景

MGM-Omni具有广泛的应用前景,包括个性化语音助手、智能客服、有声读物生成、游戏角色配音等。该模型能够理解复杂的上下文信息,并生成自然、流畅且音色稳定的语音,从而提升用户体验。此外,该模型还支持零样本语音克隆,使得用户可以轻松地创建自己的个性化语音助手。

📄 摘要(原文)

We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.