A Mamba-based Network for Semi-supervised Singing Melody Extraction Using Confidence Binary Regularization
作者: Xiaoliang He, Kangjie Dong, Jingkai Cao, Shuai Yu, Wei Li, Yi Yu
分类: cs.SD, cs.AI, eess.AS
发布日期: 2025-05-13
💡 一句话要点
提出基于Mamba的SpectMamba网络,结合置信度二元正则化,用于半监督的歌声旋律提取。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 歌声旋律提取 Mamba 半监督学习 置信度二元正则化 音乐信息检索 音符-f0解码器 Vision Mamba
📋 核心要点
- 现有歌声旋律提取方法依赖Transformer,计算复杂度高,且忽略了音乐表演的音符特性。
- 提出SpectMamba网络,利用Mamba架构降低计算复杂度,并设计音符-f0解码器模拟音乐表演。
- 引入置信度二元正则化模块,利用未标记数据,缓解标注数据不足的问题,并在公共数据集上验证了有效性。
📝 摘要(中文)
歌声旋律提取(SME)是音乐信息检索领域中的一项关键任务。然而,现有方法面临一些局限性:首先,先前的模型使用Transformer来捕获上下文依赖关系,这需要二次计算,导致推理阶段的效率低下。其次,先前的工作通常依赖于频率监督方法来估计基频(f0),这忽略了音乐表演实际上是基于音符的。第三,Transformer通常需要大量的标记数据才能达到最佳性能,但SME任务缺乏足够的标注数据。为了解决这些问题,本文提出了一种基于Mamba的网络,称为SpectMamba,用于使用置信度二元正则化的半监督歌声旋律提取。特别地,我们首先引入Vision Mamba来实现计算线性复杂度。然后,我们提出了一种新颖的音符-f0解码器,使模型能够更好地模仿音乐表演。此外,为了缓解标记数据的稀缺性,我们引入了一个置信度二元正则化(CBR)模块,通过最大化正确类别的概率来利用未标记的数据。所提出的方法在几个公共数据集上进行了评估,实验结果表明了我们提出的方法的有效性。
🔬 方法详解
问题定义:歌声旋律提取(SME)旨在从音乐音频中提取出歌唱部分的旋律,这是一个具有挑战性的任务。现有方法,特别是基于Transformer的方法,在处理长序列时计算复杂度高,推理效率低。此外,传统方法通常直接预测基频(f0),而忽略了音乐表演是基于离散音符的这一事实。同时,SME任务面临着标注数据稀缺的问题,限制了模型的性能。
核心思路:本文的核心思路是利用Mamba架构替代Transformer,以降低计算复杂度,提高推理效率。同时,设计一个音符-f0解码器,将音符信息融入到f0预测中,更贴合音乐表演的本质。此外,采用半监督学习方法,通过置信度二元正则化(CBR)模块,利用未标记数据来提升模型性能。
技术框架:SpectMamba网络主要包含以下几个模块:1) 基于Vision Mamba的特征提取器,用于提取音频频谱的特征;2) 音符-f0解码器,将提取的特征解码为音符和基频;3) 置信度二元正则化(CBR)模块,用于利用未标记数据进行半监督学习。整体流程是:首先,音频输入经过特征提取器得到频谱特征;然后,频谱特征输入到音符-f0解码器,预测音符和基频;最后,CBR模块利用标记和未标记数据,对模型进行正则化训练。
关键创新:本文的关键创新点在于:1) 将Mamba架构引入到歌声旋律提取任务中,显著降低了计算复杂度;2) 提出了音符-f0解码器,将音符信息融入到f0预测中,更符合音乐表演的特点;3) 引入了置信度二元正则化(CBR)模块,有效利用了未标记数据,提升了模型在标注数据稀缺情况下的性能。
关键设计:在网络结构方面,采用了Vision Mamba作为特征提取器,利用其线性复杂度优势。音符-f0解码器可能包含一个音符预测分支和一个f0预测分支,音符预测分支输出音符的概率分布,f0预测分支输出基频值。CBR模块通过最大化未标记数据中正确类别的概率,来约束模型的学习。损失函数可能包含一个监督损失项(用于标记数据)和一个正则化损失项(用于未标记数据)。具体参数设置和网络结构细节需要在论文中进一步查找。
🖼️ 关键图片
📊 实验亮点
论文提出的SpectMamba网络在歌声旋律提取任务上取得了显著的性能提升。通过引入Mamba架构和置信度二元正则化,模型在计算效率和准确率上都优于现有方法。具体的性能数据和对比基线需要在论文中查找,但摘要表明该方法在多个公共数据集上进行了验证,并证明了其有效性。
🎯 应用场景
该研究成果可应用于音乐信息检索、音乐教育、自动音乐转录、卡拉OK系统等领域。通过更准确地提取歌声旋律,可以提升音乐分析、创作和学习的效率,并为用户提供更好的音乐体验。未来,该技术有望应用于更复杂的音乐场景,例如多乐器混合音乐的旋律提取。
📄 摘要(原文)
Singing melody extraction (SME) is a key task in the field of music information retrieval. However, existing methods are facing several limitations: firstly, prior models use transformers to capture the contextual dependencies, which requires quadratic computation resulting in low efficiency in the inference stage. Secondly, prior works typically rely on frequencysupervised methods to estimate the fundamental frequency (f0), which ignores that the musical performance is actually based on notes. Thirdly, transformers typically require large amounts of labeled data to achieve optimal performances, but the SME task lacks of sufficient annotated data. To address these issues, in this paper, we propose a mamba-based network, called SpectMamba, for semi-supervised singing melody extraction using confidence binary regularization. In particular, we begin by introducing vision mamba to achieve computational linear complexity. Then, we propose a novel note-f0 decoder that allows the model to better mimic the musical performance. Further, to alleviate the scarcity of the labeled data, we introduce a confidence binary regularization (CBR) module to leverage the unlabeled data by maximizing the probability of the correct classes. The proposed method is evaluated on several public datasets and the conducted experiments demonstrate the effectiveness of our proposed method.