Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment

作者: Ke Wang, Wenning Wei, Yan Deng, Lei He, Sheng Zhao

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-09-19

备注: submitted to ICASSP2026

💡 一句话要点

微调大型多模态模型用于自动发音评估，提升细粒度评估能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动发音评估 大型多模态模型 微调 计算机辅助语言学习 语音识别

📋 核心要点

现有自动发音评估系统在细粒度（如音素级别）的评估上存在不足，难以提供全面的反馈。
利用大型多模态模型，通过微调使其适应发音评估任务，旨在提升模型在细粒度评估上的性能。
实验表明，微调后的模型在单词和句子级别表现良好，但音素级别评估仍具挑战，PCC和SCC指标差异揭示了排序一致性的重要性。

📝 摘要（中文）

自动发音评估(APA)在计算机辅助语言学习(CALL)中至关重要，它需要对多个粒度和方面进行评估。大型多模态模型(LMMs)为APA提供了新的机会，但它们在细粒度评估中的有效性仍不确定。本文研究了使用Speechocean762数据集和一个私有语料库对LMMs进行微调以用于APA。微调显著优于零样本设置，并且在单粒度任务上实现了与公共和商业系统相比具有竞争力的结果。该模型在单词和句子级别表现良好，而音素级别的评估仍然具有挑战性。我们还观察到Pearson相关系数(PCC)达到0.9，而Spearman等级相关系数(SCC)保持在0.6左右，表明SCC更好地反映了序数一致性。这些发现突出了LMMs在APA中的希望和局限性，并指出了未来在细粒度建模和排序感知评估方面的工作。

🔬 方法详解

问题定义：自动发音评估（APA）旨在评估学习者的发音质量，现有方法在细粒度层面，特别是音素级别的评估上存在不足。商业系统和传统方法难以提供足够精确和细致的反馈，限制了学习效果的提升。

核心思路：利用大型多模态模型（LMMs）强大的表征学习能力，通过微调使其适应APA任务。核心在于将语音信息与文本信息融合，使模型能够理解发音与文本之间的对应关系，从而更准确地评估发音质量。

技术框架：整体流程包括数据预处理、模型微调和评估三个阶段。首先，对语音和文本数据进行清洗和对齐。然后，选择合适的LMM作为基础模型，并使用标注了发音质量的数据集进行微调。最后，使用不同的评估指标（如PCC和SCC）评估模型在不同粒度（音素、单词、句子）上的性能。

关键创新：该研究的关键创新在于探索了LMMs在APA任务中的应用潜力，并验证了微调LMMs可以显著提升发音评估的性能，尤其是在单词和句子级别。此外，研究还关注了不同相关系数（PCC和SCC）在评估排序一致性方面的差异，为未来的评估指标选择提供了参考。

关键设计：使用了Speechocean762数据集和一个私有语料库进行微调。模型选择方面，具体使用的LMM结构未知，但强调了多模态融合的重要性。损失函数和优化器等技术细节未知，但实验结果表明微调策略是有效的。

🖼️ 关键图片

📊 实验亮点

实验结果表明，微调后的LMMs在单词和句子级别的发音评估上取得了显著提升，性能与现有公共和商业系统相比具有竞争力。Pearson相关系数(PCC)达到0.9，表明模型在发音质量的绝对值评估上表现良好。然而，Spearman等级相关系数(SCC)仅为0.6左右，提示模型在排序一致性方面仍有提升空间。

🎯 应用场景

该研究成果可应用于计算机辅助语言学习(CALL)系统，为学习者提供更准确、细致的发音反馈，辅助其提高口语水平。此外，该技术还可应用于语音识别、语音合成等领域，提升语音处理系统的性能和鲁棒性。未来，该研究有望推动个性化语言学习的发展。

📄 摘要（原文）

Automatic Pronunciation Assessment (APA) is critical for Computer-Assisted Language Learning (CALL), requiring evaluation across multiple granularities and aspects. Large Multimodal Models (LMMs) present new opportunities for APA, but their effectiveness in fine-grained assessment remains uncertain. This work investigates fine-tuning LMMs for APA using the Speechocean762 dataset and a private corpus. Fine-tuning significantly outperforms zero-shot settings and achieves competitive results on single-granularity tasks compared to public and commercial systems. The model performs well at word and sentence levels, while phoneme-level assessment remains challenging. We also observe that the Pearson Correlation Coefficient (PCC) reaches 0.9, whereas Spearman's rank Correlation Coefficient (SCC) remains around 0.6, suggesting that SCC better reflects ordinal consistency. These findings highlight both the promise and limitations of LMMs for APA and point to future work on fine-grained modeling and rank-aware evaluation.

Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理