Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages

作者: Jakub Hoscilowicz, Pawel Pawlowski, Marcin Skorupa, Marcin Sowański, Artur Janicki

分类: cs.CL

发布日期: 2024-04-03

备注: Code and info on model checkpoint are available at https://github.com/Samsung/MT-LLM-NLU

💡 一句话要点

提出利用大语言模型扩展口语理解系统至新语言的方案

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 口语理解 大语言模型 机器翻译 多语言系统 SLU模型 准确率提升 槽类型独立

📋 核心要点

现有的SLU系统在扩展至新语言时面临数据稀缺和模型适应性差的问题。
本文提出了一种基于大语言模型的机器翻译方法，能够有效地将SLU系统扩展至新语言，而无需改变现有架构。
实验结果显示，使用该方法在云场景和设备端场景下均显著提高了SLU系统的整体准确率。

📝 摘要（中文）

口语理解（SLU）模型是语音助手（如Alexa、Bixby和Google Assistant）的核心组成部分。本文提出了一种旨在将SLU系统扩展至新语言的流程，利用大语言模型（LLMs）对带槽注释的SLU训练数据进行机器翻译的微调。我们的方法在MultiATIS++基准测试中取得了显著改进，使用mBERT模型在云场景下的整体准确率从53%提升至62.18%。在设备端场景（小型且未预训练的SLU）中，我们的方法使整体准确率从5.31%提升至22.06%。与现有的FC-MTLF和GL-CLeF方法不同，我们的LLM基础机器翻译不需要对SLU的生产架构进行更改。此外，我们的流程是槽类型独立的，不需要任何槽定义或示例。

🔬 方法详解

问题定义：本文旨在解决现有SLU系统在扩展至新语言时面临的数据稀缺和模型适应性差的问题。现有方法如FC-MTLF和GL-CLeF在准确率和架构适应性上存在不足。

核心思路：我们的方法利用大语言模型（LLMs）对带槽注释的SLU训练数据进行机器翻译，能够在不改变生产架构的情况下扩展SLU系统。该设计旨在提高模型的适应性和准确性。

技术框架：整体流程包括数据准备、LLM微调和SLU模型训练三个主要阶段。首先，准备带槽注释的训练数据，然后使用LLM进行机器翻译，最后将翻译后的数据用于SLU模型的训练。

关键创新：最重要的创新点在于我们的方法不需要对SLU的生产架构进行更改，同时实现了槽类型独立性，避免了对槽定义或示例的依赖。

关键设计：在参数设置上，我们使用了mBERT模型进行微调，损失函数采用了适合多语言任务的交叉熵损失，确保了模型在不同语言上的性能提升。

📊 实验亮点

实验结果显示，在云场景下，整体准确率从53%提升至62.18%；在设备端场景下，整体准确率从5.31%提升至22.06%。这些结果表明，本文提出的方法在多语言SLU任务中具有显著的性能提升，超越了现有的基线方法。

🎯 应用场景

该研究的潜在应用领域包括多语言语音助手、跨语言信息检索和全球化的客户服务系统。通过有效扩展SLU系统至新语言，能够提升用户体验并满足不同语言用户的需求，具有重要的实际价值和广泛的市场前景。

📄 摘要（原文）

Spoken Language Understanding (SLU) models are a core component of voice assistants (VA), such as Alexa, Bixby, and Google Assistant. In this paper, we introduce a pipeline designed to extend SLU systems to new languages, utilizing Large Language Models (LLMs) that we fine-tune for machine translation of slot-annotated SLU training data. Our approach improved on the MultiATIS++ benchmark, a primary multi-language SLU dataset, in the cloud scenario using an mBERT model. Specifically, we saw an improvement in the Overall Accuracy metric: from 53% to 62.18%, compared to the existing state-of-the-art method, Fine and Coarse-grained Multi-Task Learning Framework (FC-MTLF). In the on-device scenario (tiny and not pretrained SLU), our method improved the Overall Accuracy from 5.31% to 22.06% over the baseline Global-Local Contrastive Learning Framework (GL-CLeF) method. Contrary to both FC-MTLF and GL-CLeF, our LLM-based machine translation does not require changes in the production architecture of SLU. Additionally, our pipeline is slot-type independent: it does not require any slot definitions or examples.

Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理