The realization of tones in spontaneous spoken Taiwan Mandarin: a corpus-based survey and theory-driven computational modeling

📄 arXiv: 2503.23163v1 📥 PDF

作者: Yuxin Lu, Yu-Ying Chuang, R. Harald Baayen

分类: cs.CL

发布日期: 2025-03-29


💡 一句话要点

利用语料库和计算模型研究台湾闽南语口语中音调的实现,揭示语义对音调的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 台湾闽南语 音调实现 自发语音 广义加性混合模型 GPT-2 上下文嵌入 语音合成 语音识别

📋 核心要点

  1. 现有语音研究对语义如何影响音调实现的复杂关系理解不足,尤其是在自发语音中。
  2. 本研究利用GAMs模型和GPT-2语言模型,分析台湾闽南语自发语音中音调与语义的关联。
  3. 实验结果表明,词和语义是影响音高的关键因素,且基于上下文嵌入可以预测音高轮廓。

📝 摘要(中文)

越来越多的研究表明,语义可以共同决定语音的精细细节。然而,语音实现和语义之间复杂的相互作用仍未得到充分研究,尤其是在音高实现方面。本研究调查了台湾闽南语自发语音语料库中,所有20种可能的双音节词音调组合的音调实现。我们利用广义加性混合模型(GAMs)来模拟f0轮廓,作为一系列预测变量的函数,包括性别、音调上下文、音调模式、语速、词位置、双字母组合概率、说话者和词。在GAM分析中,词和语义成为f0轮廓的关键预测因子,其效应量超过了音调模式。对于数据集中的每个词条,我们通过将GPT-2大型语言模型应用于该词条在语料库中的上下文来获得上下文嵌入。我们表明,词条的音高轮廓可以在很大程度上从这些上下文嵌入中预测出来,这些嵌入近似于使用上下文中的词条特定含义。我们的语料库研究结果表明,上下文中的含义和语音实现比标准语言理论预测的更加纠缠。

🔬 方法详解

问题定义:现有语音学研究主要关注音调模式对音高实现的影响,而忽略了语义在自发语音中的作用。传统理论未能充分解释语义如何精细地影响音调的实现,尤其是在真实的口语环境中。

核心思路:本研究的核心思路是利用大规模语料库分析和深度学习模型,将语义信息纳入音高预测模型中。通过分析词语的上下文信息,提取语义嵌入,并将其作为预测音高的重要特征,从而更准确地模拟音调的实现。

技术框架:该研究的技术框架主要包含以下几个阶段:1. 收集台湾闽南语自发语音语料库;2. 使用广义加性混合模型(GAMs)分析f0轮廓,提取影响音高的各种因素,包括音调模式、词位置、语速等;3. 利用GPT-2大型语言模型,对语料库中的每个词条生成上下文嵌入,捕捉其在特定语境下的语义信息;4. 将上下文嵌入作为特征,用于预测音高轮廓,评估语义信息对音高实现的影响。

关键创新:本研究的关键创新在于将深度学习的上下文嵌入技术引入到音高预测模型中,从而能够更有效地捕捉语义信息对音调实现的影响。与传统方法相比,该方法能够更准确地模拟自发语音中音调的复杂变化。

关键设计:在GAMs模型中,研究者选择了性别、音调上下文、音调模式、语速、词位置、双字母组合概率、说话者和词作为预测变量。GPT-2模型采用预训练的大型语言模型,能够生成高质量的上下文嵌入。研究者使用这些嵌入作为GAMs模型的输入,以评估语义信息对音高轮廓的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,词和语义是影响f0轮廓的关键预测因子,其效应量超过了音调模式。通过使用GPT-2生成的上下文嵌入,可以相当程度地预测词条的音高轮廓,这表明语义信息在音调实现中起着重要作用。该研究强调了上下文含义和语音实现之间的高度关联。

🎯 应用场景

该研究成果可应用于语音合成、语音识别、口音识别等领域。通过更准确地模拟音调的实现,可以提高语音合成的自然度和语音识别的准确率。此外,该研究还可以帮助语言学习者更好地理解和掌握台湾闽南语的音调规则。

📄 摘要(原文)

A growing body of literature has demonstrated that semantics can co-determine fine phonetic detail. However, the complex interplay between phonetic realization and semantics remains understudied, particularly in pitch realization. The current study investigates the tonal realization of Mandarin disyllabic words with all 20 possible combinations of two tones, as found in a corpus of Taiwan Mandarin spontaneous speech. We made use of Generalized Additive Mixed Models (GAMs) to model f0 contours as a function of a series of predictors, including gender, tonal context, tone pattern, speech rate, word position, bigram probability, speaker and word. In the GAM analysis, word and sense emerged as crucial predictors of f0 contours, with effect sizes that exceed those of tone pattern. For each word token in our dataset, we then obtained a contextualized embedding by applying the GPT-2 large language model to the context of that token in the corpus. We show that the pitch contours of word tokens can be predicted to a considerable extent from these contextualized embeddings, which approximate token-specific meanings in contexts of use. The results of our corpus study show that meaning in context and phonetic realization are far more entangled than standard linguistic theory predicts.