INJONGO: A Multicultural Intent Detection and Slot-filling Dataset for 16 African Languages
作者: Hao Yu, Jesujoba O. Alabi, Andiswa Bukula, Jian Yun Zhuang, En-Shiun Annie Lee, Tadesse Kebede Guge, Israel Abebe Azime, Happy Buzaaba, Blessing Kudzaishe Sibanda, Godson K. Kalipe, Jonathan Mukiibi, Salomon Kabongo Kabenamualu, Mmasibidi Setaka, Lolwethu Ndolela, Nkiruka Odu, Rooweither Mabuya, Shamsuddeen Hassan Muhammad, Salomey Osei, Sokhar Samb, Juliet W. Murage, Dietrich Klakow, David Ifeoluwa Adelani
分类: cs.CL
发布日期: 2025-02-13
💡 一句话要点
提出Injongo:一个面向16种非洲语言的多文化意图检测与槽填充数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 意图检测 槽填充 非洲语言 多语言模型 低资源语言 对话AI 跨语言迁移 基准数据集
📋 核心要点
- 现有对话AI的意图检测和槽填充基准测试主要集中在英语及翻译版本,缺乏对低资源语言和非洲文化概念的覆盖。
- Injongo数据集通过收集16种非洲语言的母语者语句,涵盖多个领域,旨在提供一个更具文化代表性的评估基准。
- 实验表明,大型语言模型在非洲语言的槽填充任务中表现不佳,而微调模型在意图检测上表现更好,但仍有提升空间。
📝 摘要(中文)
本文提出了Injongo,一个多文化、开源的基准数据集,用于评估16种非洲语言的意图检测和槽填充任务。该数据集包含由母语者生成的、涵盖银行、旅游、家居和餐饮等多个领域的语句。通过大量实验,我们对微调多语言Transformer模型和提示大型语言模型(LLMs)进行了基准测试,并展示了利用非洲文化语句相对于以西方为中心的语句,在提高英语跨语言迁移方面的优势。实验结果表明,当前LLMs在槽填充任务中表现不佳,GPT-4o的平均F1值为26。相比之下,意图检测性能明显更好,平均准确率为70.6%,但仍落后于微调基线。与英语相比,GPT-4o和微调基线在意图检测方面表现相似,准确率约为81%。我们的研究结果表明,LLMs在许多低资源非洲语言上的性能仍然落后,需要更多的工作来进一步提高其下游性能。
🔬 方法详解
问题定义:论文旨在解决现有对话AI模型在低资源非洲语言上的意图检测和槽填充任务中表现不佳的问题。现有的数据集和基准测试主要以英语为中心,缺乏对非洲文化和语言特点的考虑,导致模型在这些语言上的泛化能力较差。
核心思路:论文的核心思路是构建一个多文化、开源的基准数据集Injongo,该数据集包含16种非洲语言的母语者生成的语句,涵盖多个领域。通过在该数据集上评估现有模型,可以更准确地了解模型在非洲语言上的性能,并促进针对这些语言的对话AI技术的发展。
技术框架:论文主要通过实验评估现有模型在Injongo数据集上的性能。具体来说,作者使用了微调多语言Transformer模型和提示大型语言模型(LLMs)两种方法。对于微调方法,作者选择了常用的多语言Transformer模型,并在Injongo数据集上进行微调。对于提示方法,作者使用了GPT-4o等大型语言模型,并设计了合适的提示语来引导模型完成意图检测和槽填充任务。
关键创新:论文的关键创新在于构建了一个多文化、开源的基准数据集Injongo,该数据集是首个专门针对非洲语言的意图检测和槽填充数据集。与现有的数据集相比,Injongo数据集更具文化代表性,可以更准确地评估模型在非洲语言上的性能。此外,论文还通过实验证明了利用非洲文化语句相对于以西方为中心的语句,在提高英语跨语言迁移方面的优势。
关键设计:Injongo数据集包含了16种非洲语言,涵盖银行、旅游、家居和餐饮等多个领域。数据集中的每个语句都标注了意图和槽位信息。在实验中,作者使用了常用的评估指标,如准确率和F1值,来评估模型的性能。对于提示方法,作者设计了多种不同的提示语,并选择了效果最好的提示语进行评估。未知,论文未提供关于损失函数、网络结构等技术细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o在槽填充任务中的平均F1值为26,意图检测的平均准确率为70.6%,均落后于微调基线。与英语相比,GPT-4o和微调基线在意图检测方面表现相似,准确率约为81%。非洲文化语句在提高英语跨语言迁移方面具有优势。
🎯 应用场景
该研究成果可应用于开发面向非洲用户的智能客服、语音助手等对话AI系统。Injongo数据集的发布将促进非洲自然语言处理领域的研究,并有助于构建更具包容性和文化敏感性的AI技术。
📄 摘要(原文)
Slot-filling and intent detection are well-established tasks in Conversational AI. However, current large-scale benchmarks for these tasks often exclude evaluations of low-resource languages and rely on translations from English benchmarks, thereby predominantly reflecting Western-centric concepts. In this paper, we introduce Injongo -- a multicultural, open-source benchmark dataset for 16 African languages with utterances generated by native speakers across diverse domains, including banking, travel, home, and dining. Through extensive experiments, we benchmark the fine-tuning multilingual transformer models and the prompting large language models (LLMs), and show the advantage of leveraging African-cultural utterances over Western-centric utterances for improving cross-lingual transfer from the English language. Experimental results reveal that current LLMs struggle with the slot-filling task, with GPT-4o achieving an average performance of 26 F1-score. In contrast, intent detection performance is notably better, with an average accuracy of 70.6%, though it still falls behind the fine-tuning baselines. Compared to the English language, GPT-4o and fine-tuning baselines perform similarly on intent detection, achieving an accuracy of approximately 81%. Our findings suggest that the performance of LLMs is still behind for many low-resource African languages, and more work is needed to further improve their downstream performance.