Probing the Hidden Talent of ASR Foundation Models for L2 English Oral Assessment

作者: Fu-An Chao, Bi-Cheng Yan, Berlin Chen

分类: cs.CL, cs.AI, cs.SD, eess.AS

发布日期: 2025-10-18 (更新: 2026-01-26)

备注: Accepted to ICASSP 2026

💡 一句话要点

探索ASR基础模型Whisper在L2英语口语评估中的潜力，超越现有方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 口语评估 自动语音识别 基础模型 隐藏层表征 迁移学习

📋 核心要点

现有L2口语评估方法依赖人工或外部ASR转录，忽略了ASR模型内部表征的潜在信息。
本文提出一种利用Whisper内部隐藏层表征进行L2口语评估的方法，无需大量微调，挖掘模型内在能力。
实验表明，该方法在GEPT数据集上超越现有基线，并能通过引入图像和文本提示进一步提升性能。

📝 摘要（中文）

本文旨在探索自动语音识别（ASR）基础模型Whisper在第二语言（L2）口语评估（SLA）中未被充分利用的潜力。与以往研究侧重于对Whisper生成的文本转录进行外部分析不同，本文通过提取隐藏层表征中的声学和语言特征，深入挖掘其潜在能力。仅需在Whisper的中间层和最终输出层之上训练一个轻量级分类器，该方法在GEPT图片描述数据集上便取得了优异的性能，超越了包括多模态方法在内的现有最佳基线。此外，通过整合图像和文本提示信息作为辅助相关性线索，进一步提升了性能。最后，对Whisper的嵌入进行了深入分析，揭示了即使没有经过特定任务的微调，该模型也能内在编码口语熟练程度的排序模式和语义信息，突显了其作为SLA和其他口语理解任务强大基础模型的潜力。

🔬 方法详解

问题定义：论文旨在解决第二语言（L2）口语评估问题。现有方法通常依赖于人工评估或使用ASR系统进行语音转录，然后基于转录文本进行分析。这些方法的痛点在于人工评估成本高昂且主观，而基于转录文本的分析则可能丢失语音中的韵律、语调等重要信息，并且忽略了ASR模型本身所蕴含的语音理解能力。

核心思路：论文的核心思路是直接利用ASR基础模型（Whisper）的内部隐藏层表征，提取声学和语言特征，从而避免了对转录文本的依赖，并充分挖掘ASR模型在语音理解方面的内在能力。通过在Whisper的中间层和输出层之上训练一个轻量级分类器，实现对L2口语水平的评估。

技术框架：整体框架包括以下几个主要阶段：1) 使用Whisper模型处理L2学习者的口语语音输入；2) 从Whisper的中间层和输出层提取隐藏层表征；3) 使用提取的特征训练一个轻量级分类器，用于预测L2学习者的口语水平；4) 可选地，将图像和文本提示信息作为辅助输入，进一步提升评估性能。

关键创新：最重要的技术创新点在于直接利用ASR基础模型的内部表征进行L2口语评估，而不是依赖于转录文本。这种方法能够更全面地捕捉语音中的信息，并充分利用ASR模型在语音理解方面的能力。与现有方法相比，该方法无需对ASR模型进行大规模的特定任务微调，降低了计算成本。

关键设计：论文的关键设计包括：1) 选择Whisper作为基础ASR模型，因为它具有强大的语音识别能力和丰富的预训练知识；2) 从Whisper的多个中间层提取特征，以捕捉不同层次的语音信息；3) 使用轻量级分类器（如线性分类器或小型神经网络）进行口语水平预测，以降低计算成本并避免过拟合；4) 探索图像和文本提示信息作为辅助输入，以提供额外的上下文信息，提升评估性能。

📊 实验亮点

实验结果表明，该方法在GEPT图片描述数据集上取得了显著的性能提升，超越了包括多模态方法在内的现有最佳基线。通过整合图像和文本提示信息，性能得到了进一步提升。对Whisper嵌入的分析表明，即使没有经过特定任务的微调，该模型也能有效编码口语熟练程度和语义信息。

🎯 应用场景

该研究成果可应用于在线语言学习平台、口语考试系统和语言教学辅助工具等领域。通过自动评估学习者的口语水平，可以提供个性化的学习建议和反馈，提高语言学习效率。此外，该方法还可以用于评估语音合成系统的自然度和可理解性，促进语音技术的发展。

📄 摘要（原文）

In this paper, we explore the untapped potential of Whisper, a well-established automatic speech recognition (ASR) foundation model, in the context of L2 spoken language assessment (SLA). Unlike prior studies that extrinsically analyze transcriptions produced by Whisper, our approach goes a step further to probe its latent capabilities by extracting acoustic and linguistic features from hidden representations. With only a lightweight classifier being trained on top of Whisper's intermediate and final outputs, our method achieves strong performance on the GEPT picture-description dataset, outperforming existing cutting-edge baselines, including a multimodal approach. Furthermore, by incorporating image and text-prompt information as auxiliary relevance cues, we demonstrate additional performance gains. Finally, we conduct an in-depth analysis of Whisper's embeddings, which reveals that, even without task-specific fine-tuning, the model intrinsically encodes both ordinal proficiency patterns and semantic aspects of speech, highlighting its potential as a powerful foundation for SLA and other spoken language understanding tasks.

Probing the Hidden Talent of ASR Foundation Models for L2 English Oral Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理