Large Language Model Data Generation for Enhanced Intent Recognition in German Speech
作者: Theresa Pekarek Rosin, Burak Can Kaplan, Stefan Wermter
分类: cs.CL, cs.LG, cs.SD
发布日期: 2025-08-08
备注: 11 pages, 3 figures, accepted at KONVENS 2025
💡 一句话要点
提出结合生成模型以提升德语语音意图识别能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 意图识别 德语语音 生成模型 老年用户 合成数据 Transformer模型 机器学习
📋 核心要点
- 现有的意图识别方法主要针对短命令,且大多为英语开发,无法满足老年德语用户的需求。
- 本文提出结合微调的Whisper ASR模型与生成的合成文本数据,提升德语语音意图识别的准确性和鲁棒性。
- 实验结果显示,使用合成的LLM生成数据后,分类性能显著提升,尤其是LeoLM在数据集质量上优于ChatGPT。
📝 摘要(中文)
意图识别(IR)在人工智能助手系统中至关重要,但现有方法多局限于短命令且主要针对英语。本文聚焦于老年德语用户的语音意图识别,提出了一种新方法,结合了针对老年德语语音微调的Whisper ASR模型与基于Transformer的语言模型,这些模型使用三种知名的大型语言模型(LLMs)生成的合成文本数据集进行训练。通过生成合成语音并进行广泛的跨数据集测试,结果表明,合成的LLM生成数据显著提升了分类性能和对不同说话风格及未见词汇的鲁棒性。值得注意的是,较小的领域特定13B LLM LeoLM在德语意图识别的数据集质量上超过了更大的ChatGPT(175B)。该方法展示了生成性AI在低资源领域有效弥补数据缺口的潜力。
🔬 方法详解
问题定义:本文旨在解决现有意图识别方法在老年德语用户语音命令识别中的不足,尤其是对短命令的局限性和对英语的偏重。
核心思路:通过结合微调的Whisper ASR模型与生成的合成文本数据,提升对老年德语用户的意图识别能力,旨在增强模型的适应性和准确性。
技术框架:整体架构包括三个主要模块:首先是微调的Whisper ASR模型用于语音识别,其次是基于Transformer的语言模型用于理解生成的文本,最后是合成语音生成模块用于测试和评估。
关键创新:最重要的创新在于使用合成的LLM生成数据来增强训练集,尤其是LeoLM在特定领域的表现超越了更大规模的模型,展示了生成性AI在低资源领域的应用潜力。
关键设计:在模型训练中,采用了特定的损失函数和参数设置,以确保模型能够有效学习老年德语用户的语音特征和意图,同时在合成语音生成过程中保持高质量的输出。
📊 实验亮点
实验结果表明,使用合成的LLM生成数据后,意图识别的分类性能显著提升,尤其是在不同说话风格和未见词汇的鲁棒性方面。LeoLM在数据集质量上超越了ChatGPT,展示了其在德语意图识别中的优势。
🎯 应用场景
该研究的潜在应用领域包括智能家居助手、医疗辅助系统及老年人语音交互界面等,能够有效提升老年用户的交互体验和系统的响应能力。未来,随着更多低资源语言的研究,类似的方法可能会在全球范围内推广,促进无障碍技术的发展。
📄 摘要(原文)
Intent recognition (IR) for speech commands is essential for artificial intelligence (AI) assistant systems; however, most existing approaches are limited to short commands and are predominantly developed for English. This paper addresses these limitations by focusing on IR from speech by elderly German speakers. We propose a novel approach that combines an adapted Whisper ASR model, fine-tuned on elderly German speech (SVC-de), with Transformer-based language models trained on synthetic text datasets generated by three well-known large language models (LLMs): LeoLM, Llama3, and ChatGPT. To evaluate the robustness of our approach, we generate synthetic speech with a text-to-speech model and conduct extensive cross-dataset testing. Our results show that synthetic LLM-generated data significantly boosts classification performance and robustness to different speaking styles and unseen vocabulary. Notably, we find that LeoLM, a smaller, domain-specific 13B LLM, surpasses the much larger ChatGPT (175B) in dataset quality for German intent recognition. Our approach demonstrates that generative AI can effectively bridge data gaps in low-resource domains. We provide detailed documentation of our data generation and training process to ensure transparency and reproducibility.