Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment

作者: Ke Wang, Wenning Wei, Yan Deng, Lei He, Sheng Zhao

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-09-19

备注: submitted to ICASSP2026

💡 一句话要点

微调大型多模态模型用于自动发音评估，提升细粒度评估能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动发音评估 多模态模型 微调 语音识别 计算机辅助语言学习

📋 核心要点

现有自动发音评估系统在细粒度（如音素级别）评估方面存在挑战，难以准确捕捉发音细节。
通过微调大型多模态模型，利用其强大的表征能力，提升模型在细粒度发音评估任务上的性能。
实验表明，微调后的模型在单词和句子级别评估上表现出色，但在音素级别仍有提升空间，SCC指标更适合评估排序一致性。

📝 摘要（中文）

自动发音评估(APA)对于计算机辅助语言学习(CALL)至关重要，它需要在多个粒度和方面进行评估。大型多模态模型(LMMs)为APA提供了新的机会，但它们在细粒度评估中的有效性仍不确定。本文研究了使用Speechocean762数据集和一个私有语料库对LMMs进行微调以用于APA。微调显著优于零样本设置，并且在单粒度任务上实现了与公共和商业系统相比具有竞争力的结果。该模型在单词和句子级别表现良好，而音素级别的评估仍然具有挑战性。我们还观察到Pearson相关系数(PCC)达到0.9，而Spearman等级相关系数(SCC)保持在0.6左右，表明SCC更好地反映了序数一致性。这些发现突出了LMMs在APA中的潜力和局限性，并指出了未来在细粒度建模和排序感知评估方面的工作。

🔬 方法详解

问题定义：论文旨在解决自动发音评估（APA）中，现有方法在细粒度层面（特别是音素级别）评估准确性不足的问题。现有的APA系统难以充分利用语音和文本信息之间的关联，导致对发音细节的捕捉能力有限。

核心思路：论文的核心思路是利用大型多模态模型（LMMs）强大的表征学习能力，通过微调的方式，使模型能够更好地理解语音和文本之间的复杂关系，从而提升在细粒度发音评估任务上的性能。LMMs 预训练阶段学习到的通用知识可以迁移到 APA 任务中，减少对大量标注数据的依赖。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择合适的LMM作为基础模型；2) 构建包含语音和文本信息的训练数据集（Speechocean762和私有语料库）；3) 使用训练数据对LMM进行微调，使其适应APA任务；4) 在不同粒度级别（单词、句子、音素）评估微调后模型的性能；5) 分析不同评估指标（PCC和SCC）的适用性。

关键创新：该论文的关键创新在于将大型多模态模型应用于自动发音评估任务，并探索了微调LMMs在提升细粒度评估性能方面的潜力。与传统的APA系统相比，LMMs能够更好地融合语音和文本信息，从而更准确地评估发音质量。此外，论文还分析了不同评估指标在APA任务中的表现，为未来的研究提供了参考。

关键设计：论文的关键设计包括：1) 选择合适的LMM架构（具体模型未知）；2) 设计合适的输入表示，将语音和文本信息输入到LMM中（具体方法未知）；3) 选择合适的损失函数进行微调，例如均方误差或交叉熵损失函数（具体选择未知）；4) 针对不同粒度级别的评估任务，设计相应的评估指标，例如准确率、精确率、召回率和F1值（具体指标未知）。

📊 实验亮点

实验结果表明，经过微调的LMM在单词和句子级别的发音评估任务上取得了有竞争力的结果，显著优于零样本设置。Pearson相关系数(PCC)达到0.9，表明模型在预测发音质量方面具有较高的准确性。然而，Spearman等级相关系数(SCC)仅为0.6左右，表明模型在排序一致性方面仍有提升空间。音素级别的评估仍然具有挑战性，需要进一步的研究。

🎯 应用场景

该研究成果可应用于计算机辅助语言学习(CALL)系统，为学习者提供更准确、细致的发音反馈。通过自动评估学习者的发音水平，帮助他们发现发音问题并进行纠正，从而提高语言学习效率。此外，该技术还可应用于语音识别、语音合成等领域，提升语音处理系统的性能。

📄 摘要（原文）

Automatic Pronunciation Assessment (APA) is critical for Computer-Assisted Language Learning (CALL), requiring evaluation across multiple granularities and aspects. Large Multimodal Models (LMMs) present new opportunities for APA, but their effectiveness in fine-grained assessment remains uncertain. This work investigates fine-tuning LMMs for APA using the Speechocean762 dataset and a private corpus. Fine-tuning significantly outperforms zero-shot settings and achieves competitive results on single-granularity tasks compared to public and commercial systems. The model performs well at word and sentence levels, while phoneme-level assessment remains challenging. We also observe that the Pearson Correlation Coefficient (PCC) reaches 0.9, whereas Spearman's rank Correlation Coefficient (SCC) remains around 0.6, suggesting that SCC better reflects ordinal consistency. These findings highlight both the promise and limitations of LMMs for APA and point to future work on fine-grained modeling and rank-aware evaluation.

Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册