Abjad AI at NADI 2025: CATT-Whisper: Multimodal Diacritic Restoration Using Text and Speech Representations

📄 arXiv: 2510.24247v1 📥 PDF

作者: Ahmad Ghannam, Naif Alharthi, Faris Alasmary, Kholood Al Tabash, Shouq Sadah, Lahouari Ghouti

分类: cs.CL

发布日期: 2025-10-28


💡 一句话要点

CATT-Whisper:利用文本和语音表征的多模态阿拉伯语变音符恢复

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语 变音符恢复 多模态融合 语音识别 预训练模型

📋 核心要点

  1. 阿拉伯语变音符恢复任务面临方言口音和语音转录不准确的挑战。
  2. CATT-Whisper模型融合文本和语音信息,利用预训练模型CATT和Whisper提取特征。
  3. 通过早期融合和交叉注意力机制,模型在开发集和测试集上均取得良好效果。

📝 摘要(中文)

本文提出了一种多模态方法,用于解决阿拉伯语方言句子的变音符恢复(DR)任务,该方法结合了文本和语音信息。我们提出了一个模型,该模型使用从我们自己预训练的模型CATT中提取的编码器来表示文本模态。语音部分由OpenAI Whisper基础模型的编码器模块处理。我们的解决方案采用两种集成策略。第一种策略包括在早期阶段将语音tokens与输入融合,其中音频段的1500帧在10个连续帧上进行平均,从而产生150个语音tokens。为了确保嵌入兼容性,这些平均后的tokens在与文本tokens合并之前,会通过一个线性投影层进行处理。上下文编码由CATT编码器模块保证。第二种策略依赖于交叉注意力机制,其中文本和语音嵌入被融合。交叉注意力的输出随后被馈送到CATT分类头,用于token级别的变音符预测。为了进一步提高模型的鲁棒性,我们在训练期间随机停用语音输入,使模型在有或没有语音的情况下都能表现良好。实验表明,所提出的方法在开发集上实现了0.25的词错误率(WER)和0.9的字符错误率(CER)。在测试集上,我们的模型分别实现了0.55和0.13的WER和CER分数。

🔬 方法详解

问题定义:论文旨在解决阿拉伯语方言中变音符恢复(Diacritic Restoration, DR)的问题。现有方法在处理方言口音和语音转录错误时表现不佳,缺乏对语音信息的有效利用。

核心思路:论文的核心思路是利用多模态信息融合,将文本和语音特征结合起来,提高变音符恢复的准确性和鲁棒性。通过预训练模型提取高质量的文本和语音表征,并设计有效的融合策略,从而弥补单一模态信息的不足。

技术框架:整体框架包含文本编码器(CATT)、语音编码器(Whisper)和融合模块。文本编码器负责提取文本特征,语音编码器负责提取语音特征。融合模块采用两种策略:早期融合(将语音tokens与文本tokens合并)和交叉注意力融合(利用交叉注意力机制融合文本和语音嵌入)。融合后的特征被送入分类头进行变音符预测。

关键创新:关键创新在于多模态信息的有效融合。通过结合预训练的CATT模型和Whisper模型,充分利用了文本和语音的上下文信息。此外,随机停用语音输入的设计提高了模型的鲁棒性,使其在语音信息缺失的情况下也能正常工作。

关键设计:在早期融合策略中,音频的1500帧被平均为150个语音tokens,并通过线性投影层进行处理,以确保与文本嵌入的兼容性。在训练过程中,随机停用语音输入,以提高模型的泛化能力。损失函数采用标准的交叉熵损失函数,优化器采用AdamW。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,CATT-Whisper模型在阿拉伯语方言变音符恢复任务上取得了显著的性能提升。在开发集上,词错误率(WER)为0.25,字符错误率(CER)为0.9。在测试集上,WER为0.55,CER为0.13。这些结果表明,该模型能够有效地利用多模态信息,提高变音符恢复的准确性。

🎯 应用场景

该研究成果可应用于阿拉伯语语音识别、机器翻译、文本校对等领域。通过提高阿拉伯语文本的准确性和可读性,有助于促进阿拉伯语信息处理技术的发展,并为相关应用提供更好的用户体验。未来可扩展到其他低资源语言的变音符恢复任务。

📄 摘要(原文)

In this work, we tackle the Diacritic Restoration (DR) task for Arabic dialectal sentences using a multimodal approach that combines both textual and speech information. We propose a model that represents the text modality using an encoder extracted from our own pre-trained model named CATT. The speech component is handled by the encoder module of the OpenAI Whisper base model. Our solution is designed following two integration strategies. The former consists of fusing the speech tokens with the input at an early stage, where the 1500 frames of the audio segment are averaged over 10 consecutive frames, resulting in 150 speech tokens. To ensure embedding compatibility, these averaged tokens are processed through a linear projection layer prior to merging them with the text tokens. Contextual encoding is guaranteed by the CATT encoder module. The latter strategy relies on cross-attention, where text and speech embeddings are fused. The cross-attention output is then fed to the CATT classification head for token-level diacritic prediction. To further improve model robustness, we randomly deactivate the speech input during training, allowing the model to perform well with or without speech. Our experiments show that the proposed approach achieves a word error rate (WER) of 0.25 and a character error rate (CER) of 0.9 on the development set. On the test set, our model achieved WER and CER scores of 0.55 and 0.13, respectively.