Probing the Hidden Talent of ASR Foundation Models for L2 English Oral Assessment

📄 arXiv: 2510.16387v2 📥 PDF

作者: Fu-An Chao, Bi-Cheng Yan, Berlin Chen

分类: cs.CL, cs.AI, cs.SD, eess.AS

发布日期: 2025-10-18 (更新: 2026-01-26)

备注: Accepted to ICASSP 2026


💡 一句话要点

探索ASR基础模型Whisper在L2英语口语评估中的潜力,超越现有方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 口语评估 自动语音识别 基础模型 隐藏层表征 迁移学习

📋 核心要点

  1. 现有L2口语评估方法依赖人工或外部ASR转录,忽略了ASR模型内部表征的潜在信息。
  2. 本文提出一种利用Whisper内部隐藏层表征进行L2口语评估的方法,无需大量微调,挖掘模型内在能力。
  3. 实验表明,该方法在GEPT数据集上超越现有基线,并能通过引入图像和文本提示进一步提升性能。

📝 摘要(中文)

本文旨在探索自动语音识别(ASR)基础模型Whisper在第二语言(L2)口语评估(SLA)中未被充分利用的潜力。与以往研究侧重于对Whisper生成的文本转录进行外部分析不同,本文通过提取隐藏层表征中的声学和语言特征,深入挖掘其潜在能力。仅需在Whisper的中间层和最终输出层之上训练一个轻量级分类器,该方法在GEPT图片描述数据集上便取得了优异的性能,超越了包括多模态方法在内的现有最佳基线。此外,通过整合图像和文本提示信息作为辅助相关性线索,进一步提升了性能。最后,对Whisper的嵌入进行了深入分析,揭示了即使没有经过特定任务的微调,该模型也能内在编码口语熟练程度的排序模式和语义信息,突显了其作为SLA和其他口语理解任务强大基础模型的潜力。

🔬 方法详解

问题定义:论文旨在解决第二语言(L2)口语评估问题。现有方法通常依赖于人工评估或使用ASR系统进行语音转录,然后基于转录文本进行分析。这些方法的痛点在于人工评估成本高昂且主观,而基于转录文本的分析则可能丢失语音中的韵律、语调等重要信息,并且忽略了ASR模型本身所蕴含的语音理解能力。

核心思路:论文的核心思路是直接利用ASR基础模型(Whisper)的内部隐藏层表征,提取声学和语言特征,从而避免了对转录文本的依赖,并充分挖掘ASR模型在语音理解方面的内在能力。通过在Whisper的中间层和输出层之上训练一个轻量级分类器,实现对L2口语水平的评估。

技术框架:整体框架包括以下几个主要阶段:1) 使用Whisper模型处理L2学习者的口语语音输入;2) 从Whisper的中间层和输出层提取隐藏层表征;3) 使用提取的特征训练一个轻量级分类器,用于预测L2学习者的口语水平;4) 可选地,将图像和文本提示信息作为辅助输入,进一步提升评估性能。

关键创新:最重要的技术创新点在于直接利用ASR基础模型的内部表征进行L2口语评估,而不是依赖于转录文本。这种方法能够更全面地捕捉语音中的信息,并充分利用ASR模型在语音理解方面的能力。与现有方法相比,该方法无需对ASR模型进行大规模的特定任务微调,降低了计算成本。

关键设计:论文的关键设计包括:1) 选择Whisper作为基础ASR模型,因为它具有强大的语音识别能力和丰富的预训练知识;2) 从Whisper的多个中间层提取特征,以捕捉不同层次的语音信息;3) 使用轻量级分类器(如线性分类器或小型神经网络)进行口语水平预测,以降低计算成本并避免过拟合;4) 探索图像和文本提示信息作为辅助输入,以提供额外的上下文信息,提升评估性能。

📊 实验亮点

实验结果表明,该方法在GEPT图片描述数据集上取得了显著的性能提升,超越了包括多模态方法在内的现有最佳基线。通过整合图像和文本提示信息,性能得到了进一步提升。对Whisper嵌入的分析表明,即使没有经过特定任务的微调,该模型也能有效编码口语熟练程度和语义信息。

🎯 应用场景

该研究成果可应用于在线语言学习平台、口语考试系统和语言教学辅助工具等领域。通过自动评估学习者的口语水平,可以提供个性化的学习建议和反馈,提高语言学习效率。此外,该方法还可以用于评估语音合成系统的自然度和可理解性,促进语音技术的发展。

📄 摘要(原文)

In this paper, we explore the untapped potential of Whisper, a well-established automatic speech recognition (ASR) foundation model, in the context of L2 spoken language assessment (SLA). Unlike prior studies that extrinsically analyze transcriptions produced by Whisper, our approach goes a step further to probe its latent capabilities by extracting acoustic and linguistic features from hidden representations. With only a lightweight classifier being trained on top of Whisper's intermediate and final outputs, our method achieves strong performance on the GEPT picture-description dataset, outperforming existing cutting-edge baselines, including a multimodal approach. Furthermore, by incorporating image and text-prompt information as auxiliary relevance cues, we demonstrate additional performance gains. Finally, we conduct an in-depth analysis of Whisper's embeddings, which reveals that, even without task-specific fine-tuning, the model intrinsically encodes both ordinal proficiency patterns and semantic aspects of speech, highlighting its potential as a powerful foundation for SLA and other spoken language understanding tasks.