AFD-SLU: Adaptive Feature Distillation for Spoken Language Understanding

📄 arXiv: 2509.04821v1 📥 PDF

作者: Yan Xie, Yibo Cui, Liang Xie, Erwei Yin

分类: cs.CL

发布日期: 2025-09-05

备注: 5 pages, 1 figures


💡 一句话要点

提出自适应特征蒸馏框架以解决语音理解中的数据稀缺问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音理解 特征蒸馏 动态适配器 轻量模型 意图识别 槽位填充 深度学习

📋 核心要点

  1. 现有的语音理解系统面临标注数据稀缺和大型模型部署计算负担等挑战,影响了其性能和应用。
  2. 本文提出了一种自适应特征蒸馏框架,通过动态适配器和动态蒸馏系数来优化特征传递和模型性能。
  3. 在中文ProSLU基准测试中,AFD-SLU实现了95.67%的意图准确率和92.02%的槽位F1分数,表现优于现有方法。

📝 摘要(中文)

语音理解(SLU)是对话系统的核心组成部分,使机器能够解读用户的发言。尽管其重要性不言而喻,但由于标注训练数据的稀缺和在实际应用中部署大型语言模型(LLMs)的计算负担,开发有效的SLU系统仍然面临挑战。为此,本文提出了一种自适应特征蒸馏框架,通过从基于通用文本嵌入(GTE)的教师模型向轻量级学生模型转移丰富的语义表示,来缓解这些问题。该方法引入了一个动态适配器,配备残差投影神经网络(RPNN),以对齐异构特征空间,并使用动态蒸馏系数(DDC)根据意图和槽位预测性能的实时反馈自适应调节蒸馏强度。在中文基于个人资料的ProSLU基准测试中,AFD-SLU达到了95.67%的意图准确率、92.02%的槽位F1分数和85.50%的整体准确率,表现出色。

🔬 方法详解

问题定义:本文旨在解决语音理解中的数据稀缺和大型语言模型计算负担的问题。现有方法在特征提取和模型轻量化方面存在不足,导致性能受限。

核心思路:提出自适应特征蒸馏框架,通过教师模型向学生模型转移语义特征,利用动态适配器和动态蒸馏系数提升模型的学习效率和性能。

技术框架:整体架构包括教师模型、学生模型、动态适配器和动态蒸馏系数模块。教师模型基于通用文本嵌入,学生模型为轻量级设计,适配器用于特征对齐。

关键创新:最重要的创新在于引入动态适配器和动态蒸馏系数,使得蒸馏过程能够根据实时反馈自适应调整,显著提升了模型的适应性和性能。

关键设计:采用残差投影神经网络(RPNN)作为动态适配器,设计了基于意图和槽位预测的动态蒸馏系数,确保特征空间的有效对齐和蒸馏强度的灵活调节。

🖼️ 关键图片

fig_0

📊 实验亮点

AFD-SLU在中文ProSLU基准测试中表现优异,达到了95.67%的意图准确率和92.02%的槽位F1分数,整体准确率为85.50%。这些结果显著优于现有的SLU系统,展示了该方法在特征蒸馏和模型轻量化方面的有效性。

🎯 应用场景

该研究具有广泛的应用潜力,尤其在智能助手、客服机器人和语音交互系统中,可以有效提升语音理解的准确性和响应速度。未来,该框架可进一步扩展到多语言和多领域的语音理解任务中,推动智能对话系统的发展。

📄 摘要(原文)

Spoken Language Understanding (SLU) is a core component of conversational systems, enabling machines to interpret user utterances. Despite its importance, developing effective SLU systems remains challenging due to the scarcity of labeled training data and the computational burden of deploying Large Language Models (LLMs) in real-world applications. To further alleviate these issues, we propose an Adaptive Feature Distillation framework that transfers rich semantic representations from a General Text Embeddings (GTE)-based teacher model to a lightweight student model. Our method introduces a dynamic adapter equipped with a Residual Projection Neural Network (RPNN) to align heterogeneous feature spaces, and a Dynamic Distillation Coefficient (DDC) that adaptively modulates the distillation strength based on real-time feedback from intent and slot prediction performance. Experiments on the Chinese profile-based ProSLU benchmark demonstrate that AFD-SLU achieves state-of-the-art results, with 95.67% intent accuracy, 92.02% slot F1 score, and 85.50% overall accuracy.