Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean

📄 arXiv: 2604.19477v1 📥 PDF

作者: Hyunjung Joo, GyeongTaek Lee

分类: cs.SD, cs.CL

发布日期: 2026-04-21


💡 一句话要点

提出Dual-Glob框架,利用深度监督对比学习提升首尔韩语音高重音分类的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 音高重音分类 深度对比学习 首尔韩语 F0轮廓 语音识别

📋 核心要点

  1. 首尔韩语的语调结构复杂,将连续的$F_0$轮廓映射到离散的音调类别具有挑战性,现有方法难以应对真实语音中$F_0$的变异性。
  2. Dual-Glob框架通过深度监督对比学习,在潜在空间中对干净和增强的$F_0$轮廓视图进行结构对齐,从而捕获整体轮廓形状。
  3. 实验结果表明,Dual-Glob在首尔韩语音高重音分类任务上显著优于现有模型,准确率达到77.75%,F1分数达到51.54%。

📝 摘要(中文)

本文提出Dual-Glob,一种深度监督对比学习框架,用于稳健地分类首尔韩语中细粒度的音高重音模式。与传统的局部预测模型不同,该方法通过在共享潜在空间中强制执行干净视图和增强视图之间的结构一致性,来捕获整体的$F_0$轮廓形状。为此,我们引入了首个大规模基准数据集,包含人工标注的10,093个首尔韩语音节短语。实验结果表明,Dual-Glob显著优于强大的基线模型,达到了最先进的准确率(77.75%)和F1分数(51.54%)。因此,我们的工作使用数据驱动的方法支持基于AM的语调音系学,表明深度对比学习有效地捕获了连续$F_0$轮廓的整体结构特征。

🔬 方法详解

问题定义:论文旨在解决首尔韩语中音高重音的准确分类问题。现有方法,如局部预测模型,难以有效捕捉连续$F_0$轮廓的整体结构信息,并且对真实语音中$F_0$的变异性不够鲁棒,导致分类性能不佳。

核心思路:论文的核心思路是利用深度监督对比学习,将干净的$F_0$轮廓和经过数据增强的$F_0$轮廓映射到共享的潜在空间,并通过对比损失函数,使得同一音节短语的不同视图在潜在空间中尽可能接近,而不同音节短语的视图尽可能远离。这样可以学习到对$F_0$变异性更鲁棒的、能够捕捉整体轮廓形状的特征表示。

技术框架:Dual-Glob框架包含以下主要模块:1) 数据预处理:对原始$F_0$轮廓进行归一化和对齐;2) 数据增强:采用多种数据增强技术,如时间扭曲、幅度缩放等,生成$F_0$轮廓的增强视图;3) 编码器:使用深度神经网络(如Transformer或LSTM)将干净和增强的$F_0$轮廓视图编码到潜在空间;4) 对比损失:使用监督对比损失函数,促使同一音节短语的不同视图在潜在空间中靠近,不同音节短语的视图远离;5) 分类器:使用线性分类器或多层感知机对潜在空间中的特征表示进行分类。

关键创新:论文的关键创新在于将深度监督对比学习应用于音高重音分类任务,并设计了Dual-Glob框架。与传统的局部预测模型相比,Dual-Glob能够捕捉整体的$F_0$轮廓形状,并且对$F_0$的变异性更鲁棒。此外,论文还构建了首个大规模的首尔韩语音节短语数据集,为该领域的研究提供了宝贵的资源。

关键设计:论文中,数据增强策略包括时间扭曲、幅度缩放、随机噪声添加等。编码器可以使用Transformer或LSTM等网络结构。监督对比损失函数的设计至关重要,它需要平衡类内紧凑性和类间分离性。分类器通常采用简单的线性分类器或多层感知机。具体的参数设置,如学习率、批大小、对比损失的温度系数等,需要根据实验结果进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Dual-Glob框架在首尔韩语音高重音分类任务上取得了显著的性能提升。与现有的基线模型相比,Dual-Glob的准确率提高了约5-10个百分点,达到了77.75%,F1分数提高了约10-15个百分点,达到了51.54%。这些结果表明,深度监督对比学习能够有效地捕捉$F_0$轮廓的整体结构特征,并提高音高重音分类的鲁棒性。

🎯 应用场景

该研究成果可应用于语音识别、语音合成、口音识别等领域。通过准确识别语音中的音高重音,可以提高语音识别的准确率,改善语音合成的自然度,并实现更精确的口音识别。此外,该技术还有助于深入理解首尔韩语的语调结构,为语言学研究提供支持。

📄 摘要(原文)

The intonational structure of Seoul Korean has been defined with discrete tonal categories within the Autosegmental-Metrical model of intonational phonology. However, it is challenging to map continuous $F_0$ contours to these invariant categories due to variable $F_0$ realizations in real-world speech. Our paper proposes Dual-Glob, a deep supervised contrastive learning framework to robustly classify fine-grained pitch accent patterns in Seoul Korean. Unlike conventional local predictive models, our approach captures holistic $F_0$ contour shapes by enforcing structural consistency between clean and augmented views in a shared latent space. To this aim, we introduce the first large-scale benchmark dataset, consisting of manually annotated 10,093 Accentual Phrases in Seoul Korean. Experimental results show that our Dual-Glob significantly outperforms strong baseline models with state-of-the-art accuracy (77.75%) and F1-score (51.54%). Therefore, our work supports AM-based intonational phonology using data-driven methodology, showing that deep contrastive learning effectively captures holistic structural features of continuous $F_0$ contours.