Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution

📄 arXiv: 2409.09337v3 📥 PDF

作者: Yongjoon Lee, Chanwoo Kim

分类: eess.AS, cs.AI, cs.SD

发布日期: 2024-09-14 (更新: 2025-02-03)

备注: Accepted to ICASSP 2025


💡 一句话要点

Wave-U-Mamba:一种高质量、高效率的语音超分辨率端到端框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语音超分辨率 选择性状态空间模型 Mamba 时域建模 端到端学习

📋 核心要点

  1. 传统语音超分辨率方法依赖于mel特征,缺乏相位信息,导致重建性能下降。
  2. Wave-U-Mamba直接在时域进行语音超分辨率,利用选择性状态空间模型提升性能。
  3. 实验表明,Wave-U-Mamba在LSD和MOS指标上优于现有模型,且速度更快,参数更少。

📝 摘要(中文)

语音超分辨率(SSR)是一项通过恢复缺失的高频分量来增强低分辨率语音信号的任务。传统方法通常重建log-mel特征,然后使用声码器在波形域生成高分辨率语音。然而,由于mel特征缺乏相位信息,这可能导致重建阶段的性能下降。受到选择性状态空间模型(SSMs)最新进展的启发,我们提出了一种名为Wave-U-Mamba的方法,该方法直接在时域执行SSR。在我们的对比研究中,包括WSRGlow、NU-Wave 2和AudioSR等模型,Wave-U-Mamba表现出卓越的性能,在8到24 kHz的各种低分辨率采样率下,实现了最低的Log-Spectral Distance (LSD)。此外,使用平均意见得分(MOS)进行的主观人工评估表明,我们的方法产生的SSR具有自然和类似人类的质量。更重要的是,Wave-U-Mamba在单个A100 GPU上生成高分辨率语音的速度比基线模型快九倍以上,而参数大小仅为基线模型的2%。

🔬 方法详解

问题定义:语音超分辨率(SSR)旨在从低分辨率语音信号中恢复高频成分,生成高质量的高分辨率语音。现有方法通常先将低分辨率语音转换为log-mel特征,然后通过声码器重建波形。这种方法的主要痛点在于log-mel特征丢失了相位信息,导致重建后的语音质量受损。

核心思路:Wave-U-Mamba的核心思路是直接在时域进行语音超分辨率,避免了中间特征转换带来的信息损失。它利用选择性状态空间模型(SSMs)强大的序列建模能力,直接学习低分辨率波形到高分辨率波形的映射关系。

技术框架:Wave-U-Mamba采用端到端的框架。输入是低分辨率的语音波形,输出是对应的高分辨率语音波形。模型主要由一系列Mamba块组成,这些Mamba块负责提取语音信号中的时序特征并进行超分辨率重建。整个流程无需中间特征转换,直接从波形到波形。

关键创新:Wave-U-Mamba的关键创新在于将选择性状态空间模型(Mamba)应用于语音超分辨率任务,并直接在时域进行建模。这与传统方法依赖于mel特征和声码器的方式截然不同。Mamba模型能够有效地捕捉语音信号中的长程依赖关系,从而更好地恢复高频成分。

关键设计:Wave-U-Mamba的关键设计包括Mamba块的配置、损失函数的选择以及训练策略。具体来说,模型采用了多层Mamba块堆叠的方式,以增强模型的表达能力。损失函数方面,论文可能采用了L1或L2损失函数来衡量重建语音与目标语音之间的差异。具体的训练策略(如学习率调度、优化器选择等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Wave-U-Mamba在语音超分辨率任务上取得了显著的性能提升。实验结果表明,Wave-U-Mamba在各种低分辨率采样率(8-24 kHz)下,Log-Spectral Distance (LSD)指标均优于WSRGlow、NU-Wave 2和AudioSR等基线模型。主观听觉测试(MOS)也表明,Wave-U-Mamba生成的语音具有更高的自然度和类人质量。此外,Wave-U-Mamba在A100 GPU上的推理速度比基线模型快9倍以上,参数量仅为基线模型的2%。

🎯 应用场景

Wave-U-Mamba在语音通信、语音增强、音频编辑等领域具有广泛的应用前景。它可以用于提升低采样率语音的质量,改善语音通话的清晰度,以及增强老旧录音的音质。该研究的突破为开发更高效、更自然的语音处理系统奠定了基础,未来可能应用于智能助手、语音识别等领域。

📄 摘要(原文)

Speech Super-Resolution (SSR) is a task of enhancing low-resolution speech signals by restoring missing high-frequency components. Conventional approaches typically reconstruct log-mel features, followed by a vocoder that generates high-resolution speech in the waveform domain. However, as mel features lack phase information, this can result in performance degradation during the reconstruction phase. Motivated by recent advances with Selective State Spaces Models (SSMs), we propose a method, referred to as Wave-U-Mamba that directly performs SSR in time domain. In our comparative study, including models such as WSRGlow, NU-Wave 2, and AudioSR, Wave-U-Mamba demonstrates superior performance, achieving the lowest Log-Spectral Distance (LSD) across various low-resolution sampling rates, ranging from 8 to 24 kHz. Additionally, subjective human evaluations, scored using Mean Opinion Score (MOS) reveal that our method produces SSR with natural and human-like quality. Furthermore, Wave-U-Mamba achieves these results while generating high-resolution speech over nine times faster than baseline models on a single A100 GPU, with parameter sizes less than 2\% of those in the baseline models.