TaigiSpeech: A Low-Resource Real-World Speech Intent Dataset and Preliminary Results with Scalable Data Mining In-the-Wild
作者: Kai-Wei Chang, Yi-Cheng Lin, Huang-Cheng Chou, Wenze Ren, Yu-Han Huang, Yun-Shao Tsai, Chien-Cheng Chen, Yu Tsao, Yuan-Fu Liao, Shrikanth Narayanan, James Glass, Hung-yi Lee
分类: cs.CL, cs.LG, eess.AS
发布日期: 2026-03-23
备注: submitted to Interspeech 2026
💡 一句话要点
提出TaigiSpeech:一个低资源闽南语真实语音意图数据集,并探索可扩展的数据挖掘方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低资源语音 闽南语 语音意图识别 数据挖掘 伪标签 多模态学习 弱监督学习
📋 核心要点
- 低资源口语缺乏标注数据,限制了语音技术的发展,尤其是在意图识别等任务上。
- 提出TaigiSpeech数据集,并探索结合LLM伪标签和多模态信息的弱监督数据挖掘方法,以扩展数据集。
- 实验验证了所提出的数据挖掘策略在低资源闽南语意图识别任务上的有效性,为后续研究奠定基础。
📝 摘要(中文)
本文介绍了TaigiSpeech,一个真实场景下的闽南语(又称台湾闽南语/闽南语)语音意图数据集,闽南语是一种低资源且主要为口头语言的语言。该数据集从21位老年人处收集,包含3000条语音。它专为实际意图检测场景设计,包括医疗保健和家庭助手应用。为了解决标注数据稀缺的问题,我们探索了两种具有不同监督程度的数据挖掘策略:通过中间语言进行LLM伪标签的关键词匹配数据挖掘,以及利用多模态线索且文本监督极少的视听框架。这种设计使得为低资源和非书面口语构建可扩展的数据集成为可能。TaigiSpeech将在CC BY 4.0许可下发布,以促进对低资源和非书面语言的广泛采用和研究。项目网站和数据集可在https://kwchang.org/taigispeech上找到。
🔬 方法详解
问题定义:论文旨在解决低资源口语(特别是闽南语)语音意图识别任务中,缺乏大规模标注数据集的问题。现有方法通常依赖于大量人工标注数据,成本高昂且难以扩展到低资源语言。因此,如何利用有限的资源,甚至无监督或弱监督的方式,构建有效的语音意图识别模型是关键挑战。
核心思路:论文的核心思路是利用数据挖掘技术,结合LLM的知识和多模态信息,以弱监督的方式自动生成伪标签数据,从而扩展训练数据集。通过关键词匹配和LLM伪标签,以及视听信息融合,可以在较少人工干预的情况下,获得大量的训练数据。
技术框架:整体框架包含两个主要的数据挖掘策略:一是基于关键词匹配和LLM伪标签的方法,首先通过关键词匹配从大量未标注语音数据中筛选候选样本,然后利用LLM(通过中间语言)生成伪标签。二是基于视听信息的方法,利用语音和视觉信息之间的关联,在文本监督极少的情况下进行数据挖掘。最终,将挖掘到的数据与少量人工标注数据结合,训练语音意图识别模型。
关键创新:论文的关键创新在于提出了结合LLM伪标签和多模态信息的弱监督数据挖掘方法,用于扩展低资源口语的语音意图数据集。这种方法能够有效利用未标注数据,降低人工标注成本,并提高模型的泛化能力。与传统的完全依赖人工标注的方法相比,该方法更具可扩展性和实用性。
关键设计:在基于关键词匹配和LLM伪标签的方法中,关键词的选择和LLM的选择至关重要。论文可能采用了特定的关键词列表和LLM模型,并设计了合适的prompt来生成高质量的伪标签。在基于视听信息的方法中,如何有效地融合语音和视觉信息,以及如何设计损失函数来约束模型的学习,是关键的技术细节。具体的网络结构和参数设置需要在论文中进一步查找。
🖼️ 关键图片
📊 实验亮点
论文提出了两种数据挖掘策略,有效扩展了低资源闽南语语音意图数据集。虽然摘要中没有给出具体的性能数据,但强调了该方法在低资源场景下的可行性和有效性,为后续研究提供了宝贵的数据资源和技术思路。数据集的公开也将促进相关领域的研究。
🎯 应用场景
该研究成果可应用于智能助手、医疗健康、教育等领域,尤其是在服务于老年人群体的场景下,闽南语语音交互具有重要意义。通过低成本的数据集构建方法,可以促进低资源语言语音技术的发展,使更多人群受益于人工智能技术,并有助于保护和传承濒危语言。
📄 摘要(原文)
Speech technologies have advanced rapidly and serve diverse populations worldwide. However, many languages remain underrepresented due to limited resources. In this paper, we introduce \textbf{TaigiSpeech}, a real-world speech intent dataset in Taiwanese Taigi (aka Taiwanese Hokkien/Southern Min), which is a low-resource and primarily spoken language. The dataset is collected from older adults, comprising 21 speakers with a total of 3k utterances. It is designed for practical intent detection scenarios, including healthcare and home assistant applications. To address the scarcity of labeled data, we explore two data mining strategies with two levels of supervision: keyword match data mining with LLM pseudo labeling via an intermediate language and an audio-visual framework that leverages multimodal cues with minimal textual supervision. This design enables scalable dataset construction for low-resource and unwritten spoken languages. TaigiSpeech will be released under the CC BY 4.0 license to facilitate broad adoption and research on low-resource and unwritten languages. The project website and the dataset can be found on https://kwchang.org/taigispeech.