HARNESS: Lightweight Distilled Arabic Speech Foundation Models

📄 arXiv: 2509.14689v1 📥 PDF

作者: Vrunda N. sukhadia, Shammur Absar Chowdhury

分类: cs.CL

发布日期: 2025-09-18

备注: 5 pages, 4 figures


💡 一句话要点

提出轻量级阿拉伯语语音基础模型HArnESS,解决资源受限场景下的部署难题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语语音识别 自监督学习 知识蒸馏 轻量级模型 低秩近似

📋 核心要点

  1. 大型预训练语音模型性能优异,但部署在资源受限环境中不切实际,存在部署难题。
  2. 采用迭代自蒸馏方法,将大型双语模型知识提炼到小型学生模型中,保留阿拉伯语特定表示。
  3. 在阿拉伯语ASR、SER和DID任务上,HArnESS表现出优于HuBERT和XLS-R的性能,且微调成本低。

📝 摘要(中文)

本文介绍HArnESS,首个以阿拉伯语为中心的自监督语音模型系列,旨在捕捉阿拉伯语语音的细微差别。通过迭代自蒸馏,我们训练了大型双语HArnESS (HL) SSL模型,然后将知识提炼到压缩的学生模型(HS, HST)中,保留了阿拉伯语特定的表示。我们使用低秩近似进一步将教师的离散监督压缩到浅层、薄模型中。我们在阿拉伯语ASR、说话人情感识别(SER)和方言识别(DID)上评估了HArnESS,证明了其相对于HuBERT和XLS-R的有效性。通过最小的微调,HArnESS实现了SOTA或可比的性能,使其成为实际应用中轻量级但功能强大的替代方案。我们发布了我们的蒸馏模型和研究结果,以支持低资源环境中的负责任研究和部署。

🔬 方法详解

问题定义:现有的大型预训练语音模型在下游任务中表现出色,但由于模型体积庞大,计算资源需求高,难以在资源受限的环境中部署,例如移动设备或嵌入式系统。针对阿拉伯语语音,缺乏专门优化的轻量级模型,现有模型难以捕捉阿拉伯语的语音特性。

核心思路:论文的核心思路是通过自蒸馏技术,将大型教师模型的知识迁移到小型学生模型中,从而在保持性能的同时,显著减小模型体积。通过迭代蒸馏,逐步提升学生模型的性能,并利用低秩近似进一步压缩模型。

技术框架:HArnESS的整体框架包含以下几个主要阶段:1) 预训练大型双语教师模型(HL),该模型在大量阿拉伯语和英语语音数据上进行自监督学习。2) 迭代自蒸馏,使用教师模型生成伪标签,指导学生模型(HS, HST)的训练。3) 低秩近似,进一步压缩教师模型的离散监督信息,得到更轻量级的模型。

关键创新:该论文的关键创新在于:1) 提出了首个以阿拉伯语为中心的自监督语音模型家族HArnESS。2) 采用了迭代自蒸馏的方法,有效地将大型模型的知识迁移到小型模型中,同时保留了阿拉伯语的语音特性。3) 使用低秩近似进一步压缩模型,实现了更高的压缩率。

关键设计:在自蒸馏过程中,使用了KL散度损失函数来衡量学生模型和教师模型输出分布的差异。低秩近似通过奇异值分解(SVD)来降低模型参数的维度。具体的参数设置(例如,蒸馏迭代次数、低秩近似的秩)需要根据实验结果进行调整。

📊 实验亮点

HArnESS在阿拉伯语ASR、SER和DID任务上取得了显著的成果。在ASR任务上,HArnESS在保持较高准确率的同时,模型体积远小于HuBERT和XLS-R。在SER和DID任务上,HArnESS也取得了SOTA或可比的性能,证明了其在不同语音任务上的泛化能力。通过最小的微调,HArnESS即可达到优异的性能。

🎯 应用场景

HArnESS模型可广泛应用于阿拉伯语语音相关的各种应用场景,如语音助手、智能客服、语音搜索、情感分析、方言识别等。其轻量级的特性使其非常适合在移动设备、嵌入式系统等资源受限的环境中部署,为阿拉伯语地区的语音技术发展提供了有力支持,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

Large pre-trained speech models excel in downstream tasks but their deployment is impractical for resource-limited environments. In this paper, we introduce HArnESS, the first Arabic-centric self-supervised speech model family, designed to capture Arabic speech nuances. Using iterative self-distillation, we train large bilingual HArnESS (HL) SSL models and then distill knowledge into compressed student models (HS, HST), preserving Arabic-specific representations. We use low-rank approximation to further compact the teacher's discrete supervision into shallow, thin models. We evaluate HArnESS on Arabic ASR, Speaker Emotion Recognition (SER), and Dialect Identification (DID), demonstrating effectiveness against HuBERT and XLS-R. With minimal fine-tuning, HArnESS achieves SOTA or comparable performance, making it a lightweight yet powerful alternative for real-world use. We release our distilled models and findings to support responsible research and deployment in low-resource settings.