Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages
作者: Jakub Hoscilowicz, Pawel Pawlowski, Marcin Skorupa, Marcin Sowański, Artur Janicki
分类: cs.CL
发布日期: 2024-04-03
备注: Code and info on model checkpoint are available at https://github.com/Samsung/MT-LLM-NLU
💡 一句话要点
提出利用大语言模型扩展口语理解系统至新语言的方案
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 口语理解 大语言模型 机器翻译 多语言系统 SLU模型 准确率提升 槽类型独立
📋 核心要点
- 现有的SLU系统在扩展至新语言时面临数据稀缺和模型适应性差的问题。
- 本文提出了一种基于大语言模型的机器翻译方法,能够有效地将SLU系统扩展至新语言,而无需改变现有架构。
- 实验结果显示,使用该方法在云场景和设备端场景下均显著提高了SLU系统的整体准确率。
📝 摘要(中文)
口语理解(SLU)模型是语音助手(如Alexa、Bixby和Google Assistant)的核心组成部分。本文提出了一种旨在将SLU系统扩展至新语言的流程,利用大语言模型(LLMs)对带槽注释的SLU训练数据进行机器翻译的微调。我们的方法在MultiATIS++基准测试中取得了显著改进,使用mBERT模型在云场景下的整体准确率从53%提升至62.18%。在设备端场景(小型且未预训练的SLU)中,我们的方法使整体准确率从5.31%提升至22.06%。与现有的FC-MTLF和GL-CLeF方法不同,我们的LLM基础机器翻译不需要对SLU的生产架构进行更改。此外,我们的流程是槽类型独立的,不需要任何槽定义或示例。
🔬 方法详解
问题定义:本文旨在解决现有SLU系统在扩展至新语言时面临的数据稀缺和模型适应性差的问题。现有方法如FC-MTLF和GL-CLeF在准确率和架构适应性上存在不足。
核心思路:我们的方法利用大语言模型(LLMs)对带槽注释的SLU训练数据进行机器翻译,能够在不改变生产架构的情况下扩展SLU系统。该设计旨在提高模型的适应性和准确性。
技术框架:整体流程包括数据准备、LLM微调和SLU模型训练三个主要阶段。首先,准备带槽注释的训练数据,然后使用LLM进行机器翻译,最后将翻译后的数据用于SLU模型的训练。
关键创新:最重要的创新点在于我们的方法不需要对SLU的生产架构进行更改,同时实现了槽类型独立性,避免了对槽定义或示例的依赖。
关键设计:在参数设置上,我们使用了mBERT模型进行微调,损失函数采用了适合多语言任务的交叉熵损失,确保了模型在不同语言上的性能提升。
📊 实验亮点
实验结果显示,在云场景下,整体准确率从53%提升至62.18%;在设备端场景下,整体准确率从5.31%提升至22.06%。这些结果表明,本文提出的方法在多语言SLU任务中具有显著的性能提升,超越了现有的基线方法。
🎯 应用场景
该研究的潜在应用领域包括多语言语音助手、跨语言信息检索和全球化的客户服务系统。通过有效扩展SLU系统至新语言,能够提升用户体验并满足不同语言用户的需求,具有重要的实际价值和广泛的市场前景。
📄 摘要(原文)
Spoken Language Understanding (SLU) models are a core component of voice assistants (VA), such as Alexa, Bixby, and Google Assistant. In this paper, we introduce a pipeline designed to extend SLU systems to new languages, utilizing Large Language Models (LLMs) that we fine-tune for machine translation of slot-annotated SLU training data. Our approach improved on the MultiATIS++ benchmark, a primary multi-language SLU dataset, in the cloud scenario using an mBERT model. Specifically, we saw an improvement in the Overall Accuracy metric: from 53% to 62.18%, compared to the existing state-of-the-art method, Fine and Coarse-grained Multi-Task Learning Framework (FC-MTLF). In the on-device scenario (tiny and not pretrained SLU), our method improved the Overall Accuracy from 5.31% to 22.06% over the baseline Global-Local Contrastive Learning Framework (GL-CLeF) method. Contrary to both FC-MTLF and GL-CLeF, our LLM-based machine translation does not require changes in the production architecture of SLU. Additionally, our pipeline is slot-type independent: it does not require any slot definitions or examples.