Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for Arabic Speech Diacritization
作者: Meshal Alamr, Hassan Alqaeri, Abdullah Aldahlawi
分类: cs.CL, cs.SD, eess.AS
发布日期: 2026-05-25
备注: 4 pages, 1 figure. Published in Proceedings of OSACT7 (LREC 2026). Winning system for KSAA-2026 Task 2 on Arabic Speech Diacritization
💡 一句话要点
针对阿拉伯语音标恢复,提出基于正则化微调的CATT-Whisper模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿拉伯语音标恢复 正则化微调 CATT-Whisper模型 R-Drop Optuna Focal Loss 多模态学习
📋 核心要点
- 阿拉伯语音标恢复任务面临数据稀缺的挑战,现有方法难以充分利用有限的训练数据。
- 论文提出基于CATT-Whisper模型的正则化微调方法,增强模型泛化能力,避免过拟合。
- 实验结果表明,该方法在KSAA-2026共享任务中取得最佳性能,WER降低至23.26%。
📝 摘要(中文)
本文介绍了KSAA-2026共享任务中阿拉伯语音标自动恢复任务的冠军系统。该任务要求从语音音频和未标音的文本中生成完全标音的阿拉伯语文本,但仅提供2327个训练样本,且不允许使用外部数据。我们的系统微调了CATT-Whisper模型,这是一种字符级多模态模型,它结合了预训练的CATT文本编码器和冻结的Whisper语音编码器。我们方法的关键在于训练正则化:R-Drop一致性正则化、Optuna优化的超参数(具有高权重衰减)和Focal Loss。在推理阶段,我们使用softmax概率级别的蒙特卡洛Dropout,对四个模型检查点进行200次随机前向传递的平均。该系统在主要排行榜指标(包括带词尾的,包括无音标位置)上实现了23.26%的WER,在所有参与者中排名第一。
🔬 方法详解
问题定义:阿拉伯语音标恢复旨在为不含音标的阿拉伯语文本添加正确的音标,使其更易于阅读和理解。该任务的难点在于训练数据稀缺,容易导致模型过拟合,泛化能力不足。特别是在KSAA-2026共享任务中,仅提供少量训练样本,且禁止使用外部数据,进一步加剧了这一问题。
核心思路:论文的核心思路是通过引入多种正则化技术来提高模型的泛化能力。具体来说,采用了R-Drop一致性正则化来鼓励模型在不同dropout mask下的输出一致性,使用Optuna优化超参数(特别是权重衰减),并使用Focal Loss来解决类别不平衡问题。这些正则化手段旨在约束模型的学习过程,使其更好地适应有限的训练数据。
技术框架:该系统基于CATT-Whisper模型,这是一个多模态模型,包含一个预训练的CATT文本编码器和一个冻结的Whisper语音编码器。CATT编码器负责处理文本信息,Whisper编码器负责处理语音信息。在训练阶段,只对CATT编码器进行微调,而Whisper编码器保持不变。在推理阶段,使用蒙特卡洛Dropout对多个模型检查点进行集成,以进一步提高模型的鲁棒性。
关键创新:该论文的关键创新在于将多种正则化技术有效地结合起来,并应用于阿拉伯语音标恢复任务。R-Drop一致性正则化、Optuna优化的超参数和Focal Loss的组合,显著提高了模型在数据稀缺情况下的泛化能力。此外,使用预训练的CATT和Whisper模型作为基础,可以有效地利用已有的知识,减少对训练数据的依赖。
关键设计:R-Drop一致性正则化通过最小化不同dropout mask下的输出分布之间的KL散度来实现。Optuna用于自动搜索最佳的超参数组合,特别是权重衰减参数。Focal Loss用于解决音标类别不平衡问题,它通过降低易分类样本的权重来提高模型对难分类样本的关注度。在推理阶段,使用蒙特卡洛Dropout进行模型集成,通过对多个随机前向传递的结果进行平均来提高模型的鲁棒性。
📊 实验亮点
该系统在KSAA-2026共享任务的阿拉伯语音标自动恢复任务中取得了第一名的成绩,在包含词尾的测试集上实现了23.26%的WER。这一结果表明,所提出的基于正则化微调的CATT-Whisper模型在数据稀缺的情况下具有很强的竞争力,能够有效地提高阿拉伯语音标恢复的准确率。
🎯 应用场景
该研究成果可应用于阿拉伯语语音识别、语音合成、机器翻译等领域。在语音识别中,音标信息可以提高识别准确率;在语音合成中,音标信息可以改善合成语音的自然度;在机器翻译中,音标信息可以帮助消除歧义。该研究对于促进阿拉伯语自然语言处理技术的发展具有重要意义。
📄 摘要(原文)
We describe the winning system for Task 2 of the KSAA-2026 Shared Task on Arabic Speech Dictation with Automatic Diacritization. The task requires producing fully diacritized Arabic text from speech audio and undiacritized transcripts, with only 2,327 training samples available and no external data permitted. Our system fine-tunes CATT-Whisper, a character-level multimodal model combining a pretrained CATT text encoder with a frozen Whisper speech encoder. The key to our approach is training regularization: R-Drop consistency regularization, Optuna-optimized hyperparameters with high weight decay, and Focal Loss. At inference, we average 200 stochastic forward passes across four model checkpoints using Monte Carlo Dropout at the softmax probability level. The system achieves 23.26% WER on the primary leaderboard metric (with case endings, including no-diacritic positions), placing 1st among all participants.