CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning
作者: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
分类: cs.SD, cs.AI, cs.LG, eess.AS
发布日期: 2025-06-21
备注: 10 pages, 4 figures, accepted to the 26th International Society for Music Information Retrieval conference (ISMIR 2025), to be held in Daejeon, South Korea
💡 一句话要点
CultureMERT:通过持续预训练提升跨文化音乐表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨文化音乐表征学习 持续预训练 音乐基础模型 多文化适应 任务算术
📋 核心要点
- 现有的音乐基础模型在音频表征学习方面取得了进展,但在不同音乐传统中的有效性仍然有限。
- 论文提出一种两阶段持续预训练策略,结合学习率重预热和重衰减,以实现多文化音乐数据的有效学习。
- 实验结果表明,该方法在非西方音乐自动标注任务中显著提升,同时保持了在西方音乐基准上的性能。
📝 摘要(中文)
本文提出CultureMERT-95M,一个多文化自适应的音乐基础模型,旨在提升跨文化音乐表征学习和理解能力。为此,论文提出了一种两阶段的持续预训练策略,该策略集成了学习率重预热和重衰减,即使在有限的计算资源下也能实现稳定的适应。在包含希腊、土耳其和印度音乐传统的650小时多文化数据混合集上进行训练,在各种非西方音乐自动标注任务中,ROC-AUC和AP平均提高了4.9%,超过了先前的最先进水平,同时在以西方为中心的基准测试中保持了最小的遗忘。此外,论文还研究了任务算术,这是一种将单文化自适应模型在权重空间中合并的多文化适应替代方法。在非西方自动标注任务中,任务算术的性能与多文化训练模型相当,并且在西方数据集上没有退化。跨文化评估表明,单文化模型在不同音乐传统之间的迁移效果各不相同,而多文化自适应模型实现了最佳的整体性能。为了支持世界音乐表征学习的研究,论文公开发布了CultureMERT-95M和CultureMERT-TA-95M,以促进更具文化意识的音乐基础模型的发展。
🔬 方法详解
问题定义:论文旨在解决现有音乐基础模型在跨文化音乐理解和表征方面的不足。现有模型主要针对西方音乐进行训练,难以有效处理和理解非西方音乐的复杂性和多样性,导致在非西方音乐相关的任务中表现不佳。
核心思路:论文的核心思路是通过持续预训练,使模型逐步适应多文化音乐数据,从而提升其跨文化音乐表征能力。通过学习率的重预热和重衰减策略,保证模型在适应新数据的同时,不会过度遗忘先前学习到的知识。
技术框架:论文采用两阶段持续预训练框架。第一阶段,使用大规模西方音乐数据预训练一个基础模型。第二阶段,使用包含希腊、土耳其和印度音乐的多文化音乐数据,对基础模型进行持续预训练。在持续预训练过程中,采用学习率重预热和重衰减策略,以平衡新知识学习和旧知识保持。此外,论文还研究了任务算术,通过合并单文化自适应模型的权重来构建多文化模型。
关键创新:论文的关键创新在于提出了针对跨文化音乐表征学习的持续预训练策略,并结合了学习率重预热和重衰减技术。这种策略能够有效地使模型适应多文化音乐数据,同时避免灾难性遗忘。此外,论文还探索了任务算术在多文化音乐建模中的应用,为模型融合提供了一种新的思路。
关键设计:论文使用了MERT(Music Encoding with Relative position Transformer)作为基础模型架构。在持续预训练阶段,学习率的重预热和重衰减策略是关键。具体来说,在开始阶段,学习率逐渐增加,以加速新知识的学习;在后续阶段,学习率逐渐减小,以稳定模型并防止过拟合。论文还详细描述了多文化数据集的构建过程,包括音乐类型的选择和数据增强方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CultureMERT-95M在非西方音乐自动标注任务中,ROC-AUC和AP平均提高了4.9%,超过了先前的最先进水平。同时,在西方音乐基准测试中,性能没有明显下降。任务算术方法在非西方数据集上表现与多文化训练模型相当,且在西方数据集上没有退化。这些结果验证了论文提出的持续预训练策略和任务算术方法的有效性。
🎯 应用场景
该研究成果可广泛应用于音乐信息检索、音乐推荐、自动音乐标注等领域,尤其是在处理非西方音乐时具有重要价值。通过提升跨文化音乐理解能力,可以构建更公平、更具包容性的音乐服务,促进不同文化之间的交流与理解。未来,该技术有望应用于音乐教育、文化遗产保护等领域。
📄 摘要(原文)
Recent advances in music foundation models have improved audio representation learning, yet their effectiveness across diverse musical traditions remains limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation model developed to enhance cross-cultural music representation learning and understanding. To achieve this, we propose a two-stage continual pre-training strategy that integrates learning rate re-warming and re-decaying, enabling stable adaptation even with limited computational resources. Training on a 650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music traditions, results in an average improvement of 4.9% in ROC-AUC and AP across diverse non-Western music auto-tagging tasks, surpassing prior state-of-the-art, with minimal forgetting on Western-centric benchmarks. We further investigate task arithmetic, an alternative approach to multi-cultural adaptation that merges single-culture adapted models in the weight space. Task arithmetic performs on par with our multi-culturally trained model on non-Western auto-tagging tasks and shows no regression on Western datasets. Cross-cultural evaluation reveals that single-culture models transfer with varying effectiveness across musical traditions, whereas the multi-culturally adapted model achieves the best overall performance. To support research on world music representation learning, we publicly release CultureMERT-95M and CultureMERT-TA-95M, fostering the development of more culturally aware music foundation models.