NushuRescue: Revitalization of the Endangered Nushu Language with AI

作者: Ivory Yang, Weicheng Ma, Soroush Vosoughi

分类: cs.CL, cs.LG

发布日期: 2024-11-29 (更新: 2025-01-05)

备注: Accepted to COLING 2025

💡 一句话要点

NushuRescue：利用AI技术复兴濒危女书语言

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 濒危语言复兴 女书 大型语言模型 机器翻译 数据增强

📋 核心要点

濒危语言资源匮乏，传统重建方法耗时费力，难以有效保护和复兴。
NushuRescue框架利用AI技术，通过少量数据训练LLM，自动化评估和扩展语料库，加速语言复兴。
实验表明，NushuRescue在少量数据下，使用GPT-4-Turbo在女书翻译上取得了显著的准确率。

📝 摘要（中文）

濒危和已灭绝语言的保护和复兴是一项有意义的事业，它不仅保护了文化遗产，还丰富了语言学和人类学等领域。然而，这些语言通常是低资源的，使得它们的重建工作既费力又昂贵。女书就是一个典型的例子，这是一种罕见的文字，历史上由中国瑶族妇女使用，用于在父权社会中进行自我表达。为了应对这一挑战，我们推出了NushuRescue，这是一个AI驱动的框架，旨在用最少的数据训练大型语言模型（LLM）来处理濒危语言。NushuRescue可以自动评估并扩展目标语料库，从而加速语言的复兴。作为一个基础组件，我们开发了NCGold，这是一个包含500个句子的女书-汉语平行语料库，也是首个公开的此类数据集。NushuRescue利用GPT-4-Turbo，在没有事先接触过女书且仅使用了NCGold中的35个简短示例的情况下，在50个保留句子上实现了48.69%的翻译准确率，并生成了NCSilver，这是一组98个新翻译的、长度不一的现代汉语句子。此外，我们还开发了基于FastText和Seq2Seq的模型，以进一步支持对女书的研究。NushuRescue为濒危语言的复兴提供了一种通用且可扩展的工具，最大限度地减少了对大量人工输入的需求。

🔬 方法详解

问题定义：论文旨在解决濒危语言（如女书）因资源匮乏而难以复兴的问题。现有方法依赖大量人工标注数据，成本高昂且效率低下，无法满足濒危语言复兴的需求。

核心思路：论文的核心思路是利用大型语言模型（LLM）的zero-shot或few-shot能力，结合自动数据增强和评估技术，在少量标注数据的基础上，实现濒危语言的机器翻译和语料库扩展，从而降低人工成本，加速语言复兴。

技术框架：NushuRescue框架包含以下主要模块：1) NCGold：构建小规模高质量的女书-汉语平行语料库作为种子数据。2) LLM训练：使用NCGold中的少量样本对LLM（如GPT-4-Turbo）进行few-shot训练。3) 自动翻译与评估：利用训练后的LLM自动翻译新的汉语文本，并使用指标（如BLEU）或人工评估翻译质量。4) NCSilver：将高质量的自动翻译结果添加到语料库中，形成更大的训练数据集。5) 基于FastText和Seq2Seq的模型：构建传统机器学习模型作为基线，并用于辅助研究。

关键创新：论文的关键创新在于：1) 提出了一个完整的AI驱动的濒危语言复兴框架，包括数据构建、模型训练、自动评估和语料库扩展等环节。2) 证明了大型语言模型在少量数据下，可以有效地进行濒危语言的翻译和生成。3) 构建了首个公开的女书-汉语平行语料库NCGold，为后续研究提供了基础资源。

关键设计：论文的关键设计包括：1) NCGold语料库的构建，保证了种子数据的质量。2) 使用GPT-4-Turbo作为LLM，利用其强大的zero-shot和few-shot能力。3) 采用BLEU等指标对自动翻译结果进行评估，筛选高质量的翻译结果加入NCSilver。

🖼️ 关键图片

📊 实验亮点

NushuRescue框架在仅使用35个女书-汉语平行句对的情况下，利用GPT-4-Turbo在50个保留句子上实现了48.69%的翻译准确率。此外，该框架还生成了包含98个句子的NCSilver语料库，为女书研究提供了新的数据资源。这些结果表明，即使在数据极度匮乏的情况下，大型语言模型也能有效地进行濒危语言的翻译和生成。

🎯 应用场景

NushuRescue框架可应用于其他濒危语言的复兴工作，帮助快速构建翻译模型和扩展语料库，降低语言保护成本。该研究还可促进文化遗产的数字化保护，并为语言学、人类学等领域的研究提供数据支持。未来，该框架可扩展到其他低资源语言，甚至用于古代语言的解读。

📄 摘要（原文）

The preservation and revitalization of endangered and extinct languages is a meaningful endeavor, conserving cultural heritage while enriching fields like linguistics and anthropology. However, these languages are typically low-resource, making their reconstruction labor-intensive and costly. This challenge is exemplified by Nushu, a rare script historically used by Yao women in China for self-expression within a patriarchal society. To address this challenge, we introduce NushuRescue, an AI-driven framework designed to train large language models (LLMs) on endangered languages with minimal data. NushuRescue automates evaluation and expands target corpora to accelerate linguistic revitalization. As a foundational component, we developed NCGold, a 500-sentence Nushu-Chinese parallel corpus, the first publicly available dataset of its kind. Leveraging GPT-4-Turbo, with no prior exposure to Nushu and only 35 short examples from NCGold, NushuRescue achieved 48.69% translation accuracy on 50 withheld sentences and generated NCSilver, a set of 98 newly translated modern Chinese sentences of varying lengths. A sample of both NCGold and NCSilver is included in the Supplementary Materials. Additionally, we developed FastText-based and Seq2Seq models to further support research on Nushu. NushuRescue provides a versatile and scalable tool for the revitalization of endangered languages, minimizing the need for extensive human input.

NushuRescue: Revitalization of the Endangered Nushu Language with AI

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理