NushuRescue: Revitalization of the Endangered Nushu Language with AI
作者: Ivory Yang, Weicheng Ma, Soroush Vosoughi
分类: cs.CL, cs.LG
发布日期: 2024-11-29 (更新: 2025-01-05)
备注: Accepted to COLING 2025
💡 一句话要点
NushuRescue:利用AI技术复兴濒危女书语言
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 濒危语言复兴 女书 大型语言模型 机器翻译 数据增强
📋 核心要点
- 濒危语言资源匮乏,传统重建方法耗时费力,难以有效保护和复兴。
- NushuRescue框架利用AI技术,通过少量数据训练LLM,自动化评估和扩展语料库,加速语言复兴。
- 实验表明,NushuRescue在少量数据下,使用GPT-4-Turbo在女书翻译上取得了显著的准确率。
📝 摘要(中文)
濒危和已灭绝语言的保护和复兴是一项有意义的事业,它不仅保护了文化遗产,还丰富了语言学和人类学等领域。然而,这些语言通常是低资源的,使得它们的重建工作既费力又昂贵。女书就是一个典型的例子,这是一种罕见的文字,历史上由中国瑶族妇女使用,用于在父权社会中进行自我表达。为了应对这一挑战,我们推出了NushuRescue,这是一个AI驱动的框架,旨在用最少的数据训练大型语言模型(LLM)来处理濒危语言。NushuRescue可以自动评估并扩展目标语料库,从而加速语言的复兴。作为一个基础组件,我们开发了NCGold,这是一个包含500个句子的女书-汉语平行语料库,也是首个公开的此类数据集。NushuRescue利用GPT-4-Turbo,在没有事先接触过女书且仅使用了NCGold中的35个简短示例的情况下,在50个保留句子上实现了48.69%的翻译准确率,并生成了NCSilver,这是一组98个新翻译的、长度不一的现代汉语句子。此外,我们还开发了基于FastText和Seq2Seq的模型,以进一步支持对女书的研究。NushuRescue为濒危语言的复兴提供了一种通用且可扩展的工具,最大限度地减少了对大量人工输入的需求。
🔬 方法详解
问题定义:论文旨在解决濒危语言(如女书)因资源匮乏而难以复兴的问题。现有方法依赖大量人工标注数据,成本高昂且效率低下,无法满足濒危语言复兴的需求。
核心思路:论文的核心思路是利用大型语言模型(LLM)的zero-shot或few-shot能力,结合自动数据增强和评估技术,在少量标注数据的基础上,实现濒危语言的机器翻译和语料库扩展,从而降低人工成本,加速语言复兴。
技术框架:NushuRescue框架包含以下主要模块:1) NCGold:构建小规模高质量的女书-汉语平行语料库作为种子数据。2) LLM训练:使用NCGold中的少量样本对LLM(如GPT-4-Turbo)进行few-shot训练。3) 自动翻译与评估:利用训练后的LLM自动翻译新的汉语文本,并使用指标(如BLEU)或人工评估翻译质量。4) NCSilver:将高质量的自动翻译结果添加到语料库中,形成更大的训练数据集。5) 基于FastText和Seq2Seq的模型:构建传统机器学习模型作为基线,并用于辅助研究。
关键创新:论文的关键创新在于:1) 提出了一个完整的AI驱动的濒危语言复兴框架,包括数据构建、模型训练、自动评估和语料库扩展等环节。2) 证明了大型语言模型在少量数据下,可以有效地进行濒危语言的翻译和生成。3) 构建了首个公开的女书-汉语平行语料库NCGold,为后续研究提供了基础资源。
关键设计:论文的关键设计包括:1) NCGold语料库的构建,保证了种子数据的质量。2) 使用GPT-4-Turbo作为LLM,利用其强大的zero-shot和few-shot能力。3) 采用BLEU等指标对自动翻译结果进行评估,筛选高质量的翻译结果加入NCSilver。
🖼️ 关键图片
📊 实验亮点
NushuRescue框架在仅使用35个女书-汉语平行句对的情况下,利用GPT-4-Turbo在50个保留句子上实现了48.69%的翻译准确率。此外,该框架还生成了包含98个句子的NCSilver语料库,为女书研究提供了新的数据资源。这些结果表明,即使在数据极度匮乏的情况下,大型语言模型也能有效地进行濒危语言的翻译和生成。
🎯 应用场景
NushuRescue框架可应用于其他濒危语言的复兴工作,帮助快速构建翻译模型和扩展语料库,降低语言保护成本。该研究还可促进文化遗产的数字化保护,并为语言学、人类学等领域的研究提供数据支持。未来,该框架可扩展到其他低资源语言,甚至用于古代语言的解读。
📄 摘要(原文)
The preservation and revitalization of endangered and extinct languages is a meaningful endeavor, conserving cultural heritage while enriching fields like linguistics and anthropology. However, these languages are typically low-resource, making their reconstruction labor-intensive and costly. This challenge is exemplified by Nushu, a rare script historically used by Yao women in China for self-expression within a patriarchal society. To address this challenge, we introduce NushuRescue, an AI-driven framework designed to train large language models (LLMs) on endangered languages with minimal data. NushuRescue automates evaluation and expands target corpora to accelerate linguistic revitalization. As a foundational component, we developed NCGold, a 500-sentence Nushu-Chinese parallel corpus, the first publicly available dataset of its kind. Leveraging GPT-4-Turbo, with no prior exposure to Nushu and only 35 short examples from NCGold, NushuRescue achieved 48.69% translation accuracy on 50 withheld sentences and generated NCSilver, a set of 98 newly translated modern Chinese sentences of varying lengths. A sample of both NCGold and NCSilver is included in the Supplementary Materials. Additionally, we developed FastText-based and Seq2Seq models to further support research on Nushu. NushuRescue provides a versatile and scalable tool for the revitalization of endangered languages, minimizing the need for extensive human input.