DialBGM: A Benchmark for Background Music Recommendation from Everyday Multi-Turn Dialogues

📄 arXiv: 2604.07895v1 📥 PDF

作者: Joonhyeok Shin, Jaehoon Kang, Yujun Lee, Hannah Lee, Yejin Lee, Yoonji Park, Kyuhong Shim

分类: cs.AI

发布日期: 2026-04-09


💡 一句话要点

DialBGM:提出一个日常多轮对话背景音乐推荐的基准数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 背景音乐推荐 对话系统 多模态学习 基准数据集 自然语言处理

📋 核心要点

  1. 现有方法缺乏针对日常对话场景的背景音乐推荐能力,难以理解对话上下文并选择合适的音乐。
  2. DialBGM数据集通过人工标注,提供了对话与音乐片段的偏好排序,为模型学习对话上下文与音乐匹配提供了数据基础。
  3. 实验结果表明,现有模型在DialBGM数据集上的表现远低于人类水平,突显了该任务的挑战性和研究价值。

📝 摘要(中文)

本文提出了对话条件下的背景音乐(BGM)推荐问题,即模型需要为多轮对话选择合适的、非侵入性的音乐,而对话通常不包含音乐描述。为了研究这个问题,我们提出了DialBGM,一个包含1200个开放领域日常对话的基准数据集,每个对话配有四个候选音乐片段,并标注了人工偏好排序。排序由背景适应性标准决定,包括上下文相关性、非侵入性和一致性。我们评估了各种开源和专有模型,包括音频-语言模型和多模态LLM,结果表明当前模型远未达到人类判断水平;在选择排名最高的片段时,没有模型的Hit@1超过35%。DialBGM为开发具有语篇意识的BGM选择方法以及评估基于检索和生成模型的BGM选择方法提供了一个标准化的基准。

🔬 方法详解

问题定义:论文旨在解决对话背景音乐推荐问题,即根据一段多轮对话,自动推荐合适的背景音乐。现有方法主要集中在音乐描述或用户偏好上,缺乏对对话上下文的理解,难以在日常对话场景中选择合适的、非侵入性的音乐。

核心思路:论文的核心思路是构建一个高质量的对话背景音乐推荐数据集,并基于该数据集评估现有模型的性能,从而推动相关研究。通过人工标注的方式,获取对话与音乐片段之间的偏好排序,为模型学习对话上下文与音乐匹配关系提供数据支撑。

技术框架:DialBGM数据集构建流程如下:1) 收集开放领域的日常对话数据;2) 为每个对话选择四个候选音乐片段;3) 邀请人工标注者根据上下文相关性、非侵入性和一致性等标准对音乐片段进行排序。同时,论文评估了多种模型,包括音频-语言模型和多模态LLM,以验证数据集的有效性和任务的挑战性。

关键创新:该论文的关键创新在于提出了对话背景音乐推荐这一新问题,并构建了相应的基准数据集DialBGM。该数据集的特点是:1) 包含开放领域的日常对话;2) 提供了人工标注的偏好排序;3) 考虑了背景音乐的上下文相关性、非侵入性和一致性。

关键设计:DialBGM数据集包含1200个开放领域日常对话,每个对话配有四个候选音乐片段。人工标注者根据以下标准对音乐片段进行排序:1) 上下文相关性:音乐是否与对话内容相关;2) 非侵入性:音乐是否会干扰对话;3) 一致性:音乐风格是否与对话氛围一致。评估指标采用Hit@1,即模型选择排名最高的片段的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有模型在DialBGM数据集上的表现远低于人类水平。例如,最好的模型在选择排名最高的片段时,Hit@1仅为35%,表明该任务具有很高的挑战性,需要进一步研究更有效的对话理解和音乐匹配方法。

🎯 应用场景

该研究成果可应用于智能音箱、虚拟助手、在线会议等场景,根据用户的对话内容自动推荐合适的背景音乐,提升用户体验。未来,该技术还可以扩展到其他类型的多媒体内容推荐,例如视频配乐、游戏音效等。

📄 摘要(原文)

Selecting an appropriate background music (BGM) that supports natural human conversation is a common production step in media and interactive systems. In this paper, we introduce dialogue-conditioned BGM recommendation, where a model should select non-intrusive, fitting music for a multi-turn conversation that often contains no music descriptors. To study this novel problem, we present DialBGM, a benchmark of 1,200 open-domain daily dialogues, each paired with four candidate music clips and annotated with human preference rankings. Rankings are determined by background suitability criteria, including contextual relevance, non-intrusiveness, and consistency. We evaluate a wide range of open-source and proprietary models, including audio-language models and multimodal LLMs, and show that current models fall far short of human judgments; no model exceeds 35% Hit@1 when selecting the top-ranked clip. DialBGM provides a standardized benchmark for developing discourse-aware methods for BGM selection and for evaluating both retrieval-based and generative models.