Session-Level Spoken Language Assessment with a Multimodal Foundation Model via Multi-Target Learning

📄 arXiv: 2509.16025v1 📥 PDF

作者: Hong-Yun Lin, Jhen-Ke Lin, Chung-Chun Wang, Hao-Chien Lu, Berlin Chen

分类: cs.CL, cs.AI

发布日期: 2025-09-19

备注: Copyright 2025 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works


💡 一句话要点

提出基于多模态基础模型和多目标学习的会话级口语评估方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 口语评估 多模态学习 基础模型 多目标学习 语音识别 会话级评估 计算机辅助语言学习

📋 核心要点

  1. 现有口语评估方法依赖级联流程或短音频窗口,存在误差传播和忽略语篇信息的不足。
  2. 论文提出一种基于多模态基础模型的方法,结合多目标学习和语音先验,实现会话级整体评估。
  3. 实验表明,该方法在Speak & Improve基准上优于现有方法,并具有良好的泛化能力。

📝 摘要(中文)

口语评估(SLA)旨在从自发语音中评估学习者的口语能力。随着第二语言为英语的学习者数量不断增长,对可靠SLA的需求也日益增加,这是计算机辅助语言学习(CALL)的关键组成部分。现有的方法通常依赖于容易产生误差传播的级联流程,或者作用于短音频窗口的端到端模型,这可能会遗漏语篇层面的证据。本文提出了一种新颖的多模态基础模型方法,可以在单次处理中执行会话级别的评估。我们的方法将多目标学习与基于冻结的Whisper ASR模型的语音先验相结合,用于声学感知校准,从而可以在不依赖手工特征的情况下,联合学习SLA的整体和特征级别目标。通过连贯地处理L2学习者的整个回答会话,该模型擅长预测整体口语能力。在Speak & Improve基准上进行的实验表明,我们提出的方法优于先前的最先进的级联系统,并表现出强大的跨部分泛化能力,从而产生了一个紧凑的可部署评分器,专为CALL应用而设计。

🔬 方法详解

问题定义:现有口语评估方法,如级联系统,容易产生误差累积,且依赖手工设计的特征。端到端模型通常处理短音频片段,无法捕捉会话级别的语篇信息,从而影响评估的准确性和全面性。因此,如何利用整个会话的上下文信息,并避免手工特征工程,是亟待解决的问题。

核心思路:论文的核心思路是利用预训练的多模态基础模型(Whisper ASR)作为语音先验,结合多目标学习框架,直接从整个会话的音频中学习口语能力评估。通过冻结Whisper模型的参数,可以有效利用其强大的语音识别能力,并减少训练所需的标注数据。多目标学习则允许模型同时学习整体评分和细粒度的特征评分,从而提高评估的准确性和鲁棒性。

技术框架:该方法的技术框架主要包括以下几个模块:1) 音频编码器:使用预训练的Whisper ASR模型提取音频特征。Whisper模型被冻结,仅作为特征提取器使用。2) 多目标学习模块:该模块包含一个共享的编码器和一个或多个特定任务的解码器。共享编码器用于学习会话级别的表示,解码器则用于预测整体评分和特征评分。3) 损失函数:使用加权的多目标损失函数,平衡不同任务之间的学习。

关键创新:该方法最重要的技术创新点在于:1) 利用预训练的多模态基础模型作为语音先验,避免了手工特征工程,并提高了模型的泛化能力。2) 采用多目标学习框架,同时学习整体评分和特征评分,提高了评估的准确性和鲁棒性。3) 直接处理整个会话的音频,捕捉了语篇信息,从而提高了评估的全面性。

关键设计:在具体实现上,Whisper模型的参数被冻结,仅作为特征提取器使用。多目标学习模块使用Transformer架构。损失函数采用加权和的形式,权重根据不同任务的重要性进行调整。实验中,使用了Speak & Improve数据集进行训练和评估。模型的训练采用Adam优化器,学习率设置为1e-4,batch size设置为32。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Speak & Improve基准测试中,该方法优于先前的最先进的级联系统,证明了其有效性。该模型还表现出强大的跨部分泛化能力,表明其具有良好的鲁棒性。此外,该模型可以生成紧凑的可部署评分器,方便集成到CALL应用中。具体性能提升数据在论文中给出。

🎯 应用场景

该研究成果可应用于计算机辅助语言学习(CALL)系统,为学习者提供自动化的口语评估和反馈。该模型可以部署为紧凑的评分器,方便集成到各种在线学习平台和移动应用中,从而降低人工评估的成本,并提高评估的效率和可扩展性。此外,该技术还可以扩展到其他语言的口语评估,以及其他类型的语音评估任务。

📄 摘要(原文)

Spoken Language Assessment (SLA) estimates a learner's oral proficiency from spontaneous speech. The growing population of L2 English speakers has intensified the demand for reliable SLA, a critical component of Computer Assisted Language Learning (CALL). Existing efforts often rely on cascaded pipelines, which are prone to error propagation, or end-to-end models that often operate on a short audio window, which might miss discourse-level evidence. This paper introduces a novel multimodal foundation model approach that performs session-level evaluation in a single pass. Our approach couples multi-target learning with a frozen, Whisper ASR model-based speech prior for acoustic-aware calibration, allowing for jointly learning holistic and trait-level objectives of SLA without resorting to handcrafted features. By coherently processing the entire response session of an L2 speaker, the model excels at predicting holistic oral proficiency. Experiments conducted on the Speak & Improve benchmark demonstrate that our proposed approach outperforms the previous state-of-the-art cascaded system and exhibits robust cross-part generalization, producing a compact deployable grader that is tailored for CALL applications.