UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

📄 arXiv: 2604.22209v1 📥 PDF

作者: Chunyu Qiang, Xiaopeng Wang, Kang Yin, Yuzhe Liang, Yuxin Guo, Teng Ma, Ziyu Zhang, Tianrui Wang, Cheng Gong, Yushen Chen, Ruibo Fu, Chen Zhang, Longbiao Wang, Jianwu Dang

分类: eess.AS, cs.AI, cs.CL, cs.SD

发布日期: 2026-04-24

备注: Accepted to ACL 2026 main conference (oral)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

UniSonate:一个统一的文本指令语音、音乐和音效生成模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频生成 文本到语音 文本到音乐 文本到音频 流匹配 多模态学习 扩散模型 统一模型

📋 核心要点

  1. 现有文本到语音、音乐、音效生成任务相互独立,缺乏统一的控制方式,且结构化与非结构化音频数据间存在差异。
  2. UniSonate提出一种统一的流匹配框架,通过动态token注入机制将非结构化音频投影到结构化潜在空间,实现统一控制。
  3. 实验表明,UniSonate在TTS和TTM任务上达到SOTA,且联合训练能提升结构连贯性和韵律表现力。

📝 摘要(中文)

生成式音频建模在很大程度上被分割成专门的任务,如文本到语音(TTS)、文本到音乐(TTM)和文本到音频(TTA),每个任务都在不同的控制范式下运行。由于结构化语义表示(语音/音乐)和非结构化声学纹理(音效)之间固有的不协调性,统一这些模态仍然是一个根本性的挑战。本文介绍了UniSonate,一个统一的流匹配框架,能够通过标准化的、无参考的自然语言指令接口合成语音、音乐和音效。为了调和结构差异,我们提出了一种新颖的动态token注入机制,将非结构化的环境声音投影到结构化的时间潜在空间中,从而在基于音素的多模态扩散Transformer(MM-DiT)中实现精确的持续时间控制。结合多阶段课程学习策略,该方法有效地缓解了跨模态优化冲突。大量的实验表明,UniSonate在基于指令的TTS(WER 1.47%)和TTM(SongEval Coherence 3.18)中实现了最先进的性能,同时在TTA中保持了具有竞争力的保真度。至关重要的是,我们观察到正迁移,与单任务基线相比,对多样化音频数据的联合训练显著增强了结构连贯性和韵律表现力。

🔬 方法详解

问题定义:现有生成音频模型被割裂为TTS、TTM和TTA等独立任务,控制方式各异。结构化语义表示(语音、音乐)和非结构化声学纹理(音效)之间的差异使得统一建模极具挑战。现有方法难以在统一框架下生成高质量的语音、音乐和音效。

核心思路:UniSonate的核心思路是通过统一的自然语言指令接口,利用流匹配框架,将不同类型的音频生成任务整合到一个模型中。关键在于解决结构化和非结构化音频数据之间的差异,并实现对生成音频的精确控制。

技术框架:UniSonate采用基于流匹配的生成框架,包含以下主要模块:1) 动态token注入模块:将非结构化的环境声音投影到结构化的时间潜在空间。2) 多模态扩散Transformer (MM-DiT):基于音素驱动,实现精确的持续时间控制。3) 多阶段课程学习策略:缓解跨模态优化冲突。整体流程为:输入文本指令,通过动态token注入处理非结构化音频,然后利用MM-DiT生成目标音频。

关键创新:UniSonate的关键创新在于动态token注入机制,它能够将非结构化的环境声音转换为结构化的表示,从而使得模型能够同时处理结构化的语音和音乐以及非结构化的音效。此外,多阶段课程学习策略也有助于缓解跨模态训练中的冲突。

关键设计:动态token注入模块的具体实现方式未知,但其核心目标是将非结构化音频数据映射到结构化的时间潜在空间。MM-DiT的具体网络结构未知,但其设计目标是基于音素驱动,实现精确的持续时间控制。多阶段课程学习策略的具体阶段划分和学习目标未知,但其目的是缓解跨模态优化冲突。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

UniSonate在指令驱动的TTS和TTM任务上取得了显著的性能提升,TTS的WER降低到1.47%,TTM的SongEval Coherence提升到3.18。此外,联合训练不同类型的音频数据能够显著增强生成音频的结构连贯性和韵律表现力,表明了正迁移效应。

🎯 应用场景

UniSonate具有广泛的应用前景,例如:游戏开发(生成游戏音效)、电影制作(生成电影配乐和环境音)、虚拟现实(创建沉浸式音频体验)、以及辅助语音合成等。该研究有助于推动通用音频生成技术的发展,并为各种音频应用提供更灵活和高效的解决方案。

📄 摘要(原文)

Generative audio modeling has largely been fragmented into specialized tasks, text-to-speech (TTS), text-to-music (TTM), and text-to-audio (TTA), each operating under heterogeneous control paradigms. Unifying these modalities remains a fundamental challenge due to the intrinsic dissonance between structured semantic representations (speech/music) and unstructured acoustic textures (sound effects). In this paper, we introduce UniSonate, a unified flow-matching framework capable of synthesizing speech, music, and sound effects through a standardized, reference-free natural language instruction interface. To reconcile structural disparities, we propose a novel dynamic token injection mechanism that projects unstructured environmental sounds into a structured temporal latent space, enabling precise duration control within a phoneme-driven Multimodal Diffusion Transformer (MM-DiT). Coupled with a multi-stage curriculum learning strategy, this approach effectively mitigates cross-modal optimization conflicts. Extensive experiments demonstrate that UniSonate achieves state-of-the-art performance in instruction-based TTS (WER 1.47%) and TTM (SongEval Coherence 3.18), while maintaining competitive fidelity in TTA. Crucially, we observe positive transfer, where joint training on diverse audio data significantly enhances structural coherence and prosodic expressiveness compared to single-task baselines. Audio samples are available at https://qiangchunyu.github.io/UniSonate/.