Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models

📄 arXiv: 2503.03702v1 📥 PDF

作者: Jiyue Jiang, Alfred Kar Yin Truong, Yanyu Chen, Qinghang Bao, Sheng Wang, Pengan Chen, Jiuming Wang, Lingpeng Kong, Yu Li, Chuan Wu

分类: cs.CL

发布日期: 2025-03-05


💡 一句话要点

构建大规模粤语数据集,提升大语言模型在粤语多任务处理上的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 粤语 大型语言模型 低资源语言 数据集构建 监督微调 自然语言处理 多任务学习

📋 核心要点

  1. 粤语作为低资源语言,面临数据稀缺、口语化严重、混合语言等挑战,阻碍了粤语大语言模型的发展。
  2. 论文通过收集和清洗多来源数据,构建大规模高质量粤语语料库,并进行监督微调,提升模型性能。
  3. 实验结果表明,该模型在粤语基准测试中达到SOTA,并在其他主流语言任务中表现出性能提升。

📝 摘要(中文)

高质量的数据资源对于训练大型语言模型(LLMs)至关重要,尤其对于像粤语这样的低资源语言。尽管粤语拥有超过8500万母语使用者,但由于普通话的主导地位、粤语社区内部缺乏凝聚力、字符编码和输入法多样性以及海外粤语使用者倾向于使用英语等因素,粤语在自然语言处理(NLP)领域仍被认为是低资源语言。此外,粤语丰富的口语词汇、英语外来词和代码切换特性增加了语料库收集和处理的复杂性。为了应对这些挑战,我们从各种来源收集粤语文本,包括开源语料库、香港特定论坛、维基百科和Common Crawl数据。我们通过语言过滤、质量过滤、内容过滤和去重步骤进行严格的数据处理,成功构建了一个超过20亿tokens的高质量粤语语料库,用于训练大型语言模型。我们通过在精选的粤语任务上进行监督微调(SFT)进一步改进了模型,增强了其处理特定应用的能力。训练完成后,该模型在四个粤语基准测试中取得了最先进(SOTA)的性能。在我们的数据集上训练后,该模型在其他主流语言任务上也表现出改进的性能。

🔬 方法详解

问题定义:论文旨在解决粤语自然语言处理中数据资源匮乏的问题。现有方法难以有效处理粤语的特殊性,如口语化表达、外来词以及与英语的混合使用,导致模型性能受限。

核心思路:核心思路是构建一个大规模、高质量的粤语语料库,并利用该语料库训练和微调大型语言模型。通过增加数据量和提升数据质量,使模型能够更好地理解和生成粤语文本。

技术框架:整体框架包括数据收集、数据处理和模型训练三个主要阶段。数据收集阶段从多个来源获取粤语文本,包括开源语料库、论坛、维基百科和Common Crawl数据。数据处理阶段包括语言过滤、质量过滤、内容过滤和去重等步骤,以确保语料库的质量。模型训练阶段使用处理后的语料库训练大型语言模型,并通过监督微调进一步提升模型在特定任务上的性能。

关键创新:关键创新在于构建了一个大规模、高质量的粤语语料库,并针对粤语的特点进行了专门的数据处理。此外,通过监督微调,模型在粤语特定任务上的性能得到了显著提升。

关键设计:数据处理阶段采用了多重过滤策略,包括基于语言模型的语言过滤、基于规则的质量过滤和基于关键词的内容过滤。监督微调阶段选择了合适的粤语任务,并设计了相应的损失函数,以优化模型在这些任务上的表现。具体的参数设置和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该模型在四个粤语基准测试中取得了最先进(SOTA)的性能,表明了该数据集和训练方法的有效性。此外,在我们的数据集上训练后,该模型在其他主流语言任务上也表现出改进的性能,证明了该模型的泛化能力。

🎯 应用场景

该研究成果可广泛应用于粤语相关的自然语言处理任务,如粤语语音识别、粤语机器翻译、粤语文本生成等。该数据集和模型能够促进粤语文化的传承和发展,并为粤语使用者提供更智能化的服务。未来,可以进一步探索该模型在粤语情感分析、粤语对话系统等领域的应用。

📄 摘要(原文)

High-quality data resources play a crucial role in learning large language models (LLMs), particularly for low-resource languages like Cantonese. Despite having more than 85 million native speakers, Cantonese is still considered a low-resource language in the field of natural language processing (NLP) due to factors such as the dominance of Mandarin, lack of cohesion within the Cantonese-speaking community, diversity in character encoding and input methods, and the tendency of overseas Cantonese speakers to prefer using English. In addition, rich colloquial vocabulary of Cantonese, English loanwords, and code-switching characteristics add to the complexity of corpus collection and processing. To address these challenges, we collect Cantonese texts from a variety of sources, including open source corpora, Hong Kong-specific forums, Wikipedia, and Common Crawl data. We conduct rigorous data processing through language filtering, quality filtering, content filtering, and de-duplication steps, successfully constructing a high-quality Cantonese corpus of over 2 billion tokens for training large language models. We further refined the model through supervised fine-tuning (SFT) on curated Cantonese tasks, enhancing its ability to handle specific applications. Upon completion of the training, the model achieves state-of-the-art (SOTA) performance on four Cantonese benchmarks. After training on our dataset, the model also exhibits improved performance on other mainstream language tasks.