Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints

作者: Hao Meng, Siyuan Zheng, Shuran Zhou, Qiangqiang Wang, Yang Song

分类: cs.SD, cs.CL, eess.AS

发布日期: 2026-04-20

备注: Accepted by IEEE ICASSP 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出基于规则约束对齐的语言模型，用于歌词到旋律生成，显著提升音乐性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 歌词到旋律生成 音乐约束 语言模型对齐 直接偏好优化 Kahneman-Tversky优化

📋 核心要点

现有基于监督微调的语言模型在歌词到旋律生成中存在音乐约束违背问题，导致生成旋律的音乐性较差。
提出一种基于规则约束对齐的框架，利用自动生成的偏好数据集，无需人工标注即可提升音乐知识。
实验结果表明，该方法能有效减少规则违背，并在客观和主观评估中优于现有方法，显著提升生成旋律的音乐性。

📝 摘要（中文）

大型语言模型(LLMs)在歌词到旋律生成方面展现出潜力，但通过监督微调(SFT)训练的模型通常会产生音乐上不合理的旋律，例如节奏不良和不合适的音域，我们称之为“约束违背”。为了解决这个问题，我们提出了一种新颖的对齐框架，无需人工标注即可灌输音乐知识。我们定义了基于规则的音乐约束，以从SFT模型的输出中自动生成偏好数据集。然后，通过一个顺序过程对模型进行对齐，首先在配对的偏好数据上使用直接偏好优化(DPO)，然后在未配对的负样本上使用Kahneman-Tversky优化(KTO)。实验结果表明，我们的对齐模型大大减少了规则违背，并在客观和主观评估中优于强大的基线，生成了音乐性和连贯性得到显著提高的旋律。一个包含音频比较的交互式演示可在https://arain233.github.io/AligningMelody-demo上找到。

🔬 方法详解

问题定义：论文旨在解决歌词到旋律生成任务中，使用大型语言模型通过监督微调（SFT）后，生成的旋律存在音乐性不足的问题，具体表现为节奏不佳、音域不合适等“约束违背”现象。现有方法依赖于人工标注数据，成本高昂且难以覆盖所有音乐规则。

核心思路：论文的核心思路是利用基于规则的音乐约束，自动生成偏好数据集，然后通过对齐技术，使模型学习这些约束，从而在生成旋律时避免违反音乐规则。这种方法无需人工标注，降低了成本，并能有效提升生成旋律的音乐性。

技术框架：整体框架包含以下几个主要阶段：1) 使用监督微调(SFT)训练一个初始模型；2) 定义基于规则的音乐约束；3) 使用这些规则从SFT模型的输出中自动生成偏好数据集，包含正样本（符合规则）和负样本（违反规则）；4) 使用直接偏好优化(DPO)在配对的偏好数据上对模型进行对齐；5) 使用Kahneman-Tversky优化(KTO)在未配对的负样本上进一步优化模型。

关键创新：最重要的技术创新点在于提出了一种无需人工标注的对齐框架，通过定义基于规则的音乐约束，自动生成偏好数据集，并使用DPO和KTO等对齐技术，使模型学习这些约束。与现有方法相比，该方法降低了标注成本，并能更有效地提升生成旋律的音乐性。

关键设计：论文的关键设计包括：1) 精心设计的基于规则的音乐约束，用于评估旋律的音乐性；2) 使用DPO进行初步对齐，使模型倾向于生成符合规则的旋律；3) 使用KTO进一步优化，惩罚违反规则的旋律，从而提高模型的鲁棒性。具体的参数设置和损失函数细节在论文中有详细描述，但未在摘要中体现。

🖼️ 关键图片

fig_0

fig_1

📊 实验亮点

实验结果表明，该方法能够显著减少规则违背，并在客观和主观评估中优于现有的基线方法。具体而言，该方法在音乐性、连贯性等方面都取得了显著提升，生成了更符合音乐规范的旋律。论文提供了一个包含音频比较的交互式演示，方便用户直观地感受该方法的优势。

🎯 应用场景

该研究成果可应用于音乐创作辅助工具、智能音乐教育、以及个性化音乐生成等领域。通过自动生成高质量的旋律，可以降低音乐创作的门槛，提高创作效率，并为用户提供更加个性化的音乐体验。未来，该技术有望在音乐产业中发挥更大的作用。

📄 摘要（原文）

Large Language Models (LLMs) show promise in lyric-to-melody generation, but models trained with Supervised Fine-Tuning (SFT) often produce musically implausible melodies with issues like poor rhythm and unsuitable vocal ranges, a phenomenon we term "constraint violation". To address this, we propose a novel alignment framework that instills musical knowledge without human annotation. We define rule-based musical constraints to automatically generate a preference dataset from an SFT model's outputs. The model is then aligned through a sequential process, first using Direct Preference Optimization (DPO) on paired preference data, followed by Kahneman-Tversky Optimization (KTO) on unpaired negative samples. Experimental results demonstrate that our aligned model substantially reduces rule violations and outperforms strong baselines in both objective and subjective evaluations, generating melodies with substantially improved musicality and coherence. An interactive demo with audio comparisons is available at https://arain233.github.io/AligningMelody-demo.