Who Will Top the Charts? Multimodal Music Popularity Prediction via Adaptive Fusion of Modality Experts and Temporal Engagement Modeling

📄 arXiv: 2512.06259v1 📥 PDF

作者: Yash Choudhary, Preeti Rao, Pushpak Bhattacharyya

分类: cs.SD, cs.AI, cs.LG

发布日期: 2025-12-06

备注: 8 pages


💡 一句话要点

提出GAMENet,通过自适应融合多模态专家和时序建模预测音乐流行度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音乐流行度预测 多模态融合 深度学习 自适应门控 时序建模 职业轨迹动态 音频特征提取

📋 核心要点

  1. 现有音乐流行度预测方法忽略了音频和歌词的时序动态,以及艺术家历史表现,多模态融合方式简单。
  2. GAMENet通过自适应门控机制融合音频、歌词和社交元数据专家,并引入职业轨迹动态特征。
  3. 在Music4All数据集上,GAMENet的R^2比直接多模态特征连接提高了12%,验证了模型的有效性。

📝 摘要(中文)

预测歌曲发行前的商业成功程度,对音乐产业来说仍然是一个开放且关键的研究挑战。提前预测音乐的流行度可以为战略决策、创意规划和营销提供信息。现有方法存在四个局限性:(i)音频和歌词中的时间动态被平均化;(ii)歌词被表示为词袋,忽略了组合结构和情感语义;(iii)忽略了艺术家和歌曲层面的历史表现;(iv)多模态融合方法依赖于简单的特征连接,导致共享表示对齐不良。为了解决这些局限性,我们提出GAMENet,一个用于音乐流行度预测的端到端多模态深度学习架构。GAMENet通过自适应门控机制整合了音频、歌词和社交元数据的模态特定专家。我们使用来自Music4AllOnion的音频特征,通过OnionEnsembleAENet(一个为鲁棒特征提取而设计的自编码器网络)处理;通过大型语言模型管道导出的歌词嵌入;以及新引入的职业轨迹动态(CTD)特征,该特征捕获了多年的艺术家职业生涯动量和歌曲层面的轨迹统计数据。使用Music4All数据集(113k首歌曲),GAMENet在R^2上比直接多模态特征连接提高了12%。

🔬 方法详解

问题定义:现有音乐流行度预测方法主要存在四个痛点:一是忽略了音频和歌词中的时序动态信息;二是歌词表示方法过于简单,忽略了其组合结构和情感语义;三是忽略了艺术家和歌曲的历史表现数据;四是多模态融合方法过于简单,导致特征对齐效果差。这些问题限制了现有方法预测音乐流行度的准确性。

核心思路:论文的核心思路是通过构建一个端到端的多模态深度学习架构,即GAMENet,来解决上述问题。GAMENet的核心在于自适应地融合来自不同模态(音频、歌词、社交元数据)的专家信息,并利用职业轨迹动态(CTD)特征来捕捉艺术家和歌曲的历史表现。这种设计旨在更全面地捕捉影响音乐流行度的各种因素,并提高预测的准确性。

技术框架:GAMENet的整体架构包括以下几个主要模块:1) 音频特征提取模块,使用Music4AllOnion数据集和OnionEnsembleAENet网络提取鲁棒的音频特征;2) 歌词嵌入模块,使用大型语言模型生成歌词的嵌入表示;3) 职业轨迹动态(CTD)特征提取模块,用于捕捉艺术家职业生涯的动量和歌曲层面的轨迹统计数据;4) 自适应门控融合模块,用于自适应地融合来自不同模态的特征;5) 预测模块,基于融合后的特征预测音乐的流行度。

关键创新:论文的主要创新点在于:1) 提出了GAMENet架构,能够自适应地融合多模态信息;2) 引入了职业轨迹动态(CTD)特征,能够有效地捕捉艺术家和歌曲的历史表现;3) 使用OnionEnsembleAENet网络提取鲁棒的音频特征;4) 使用大型语言模型生成歌词嵌入。与现有方法相比,GAMENet能够更全面地捕捉影响音乐流行度的各种因素,并提高预测的准确性。

关键设计:GAMENet的关键设计包括:1) 自适应门控融合机制,使用门控网络学习不同模态特征的权重,从而实现自适应融合;2) CTD特征的设计,包括艺术家职业生涯动量和歌曲层面的轨迹统计数据,例如歌曲的播放量、点赞数等;3) OnionEnsembleAENet网络的设计,通过多个自编码器的集成,提高音频特征的鲁棒性;4) 损失函数的设计,使用均方误差(MSE)作为损失函数,优化模型的预测性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GAMENet在Music4All数据集上取得了显著的性能提升,R^2值比直接多模态特征连接提高了12%。单独使用Spotify音频描述符的R^2为0.13,集成CTD特征后提升至0.69,进一步加入时序CTD特征后又提升了7%。在SpotGenTrack Popularity Dataset上,GAMENet也比之前的基线提高了16%,验证了模型的鲁棒性。

🎯 应用场景

该研究成果可应用于音乐产业的多个方面,例如:帮助唱片公司和音乐人预测歌曲的潜在商业价值,从而优化营销策略;为音乐推荐系统提供更准确的流行度预测,提升用户体验;辅助音乐创作,指导音乐人创作更受欢迎的歌曲。此外,该方法也可扩展到其他内容流行度预测领域,例如视频、新闻等。

📄 摘要(原文)

Predicting a song's commercial success prior to its release remains an open and critical research challenge for the music industry. Early prediction of music popularity informs strategic decisions, creative planning, and marketing. Existing methods suffer from four limitations:(i) temporal dynamics in audio and lyrics are averaged away; (ii) lyrics are represented as a bag of words, disregarding compositional structure and affective semantics; (iii) artist- and song-level historical performance is ignored; and (iv) multimodal fusion approaches rely on simple feature concatenation, resulting in poorly aligned shared representations. To address these limitations, we introduce GAMENet, an end-to-end multimodal deep learning architecture for music popularity prediction. GAMENet integrates modality-specific experts for audio, lyrics, and social metadata through an adaptive gating mechanism. We use audio features from Music4AllOnion processed via OnionEnsembleAENet, a network of autoencoders designed for robust feature extraction; lyric embeddings derived through a large language model pipeline; and newly introduced Career Trajectory Dynamics (CTD) features that capture multi-year artist career momentum and song-level trajectory statistics. Using the Music4All dataset (113k tracks), previously explored in MIR tasks but not popularity prediction, GAMENet achieves a 12% improvement in R^2 over direct multimodal feature concatenation. Spotify audio descriptors alone yield an R^2 of 0.13. Integrating aggregate CTD features increases this to 0.69, with an additional 7% gain from temporal CTD features. We further validate robustness using the SpotGenTrack Popularity Dataset (100k tracks), achieving a 16% improvement over the previous baseline. Extensive ablations confirm the model's effectiveness and the distinct contribution of each modality.