DATASHI: A Parallel English-Tashlhiyt Corpus for Orthography Normalization and Low-Resource Language Processing
作者: Nasser-Eddine Monir, Zakaria Baou
分类: cs.CL
发布日期: 2026-03-23
备注: This paper has been accepted for presentation at LREC 2026
💡 一句话要点
构建平行英-塔什利特语料库DATASHI,用于正字法标准化和低资源语言处理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低资源语言处理 阿马齐格语 塔什利特语 平行语料库 正字法标准化
📋 核心要点
- 阿马齐格语缺乏计算资源,阻碍了其自然语言处理的发展,尤其是在正字法标准化方面。
- 论文构建了包含专家标准化和用户生成文本的平行英-塔什利特语料库DATASHI,用于研究正字法多样性和标准化。
- 实验表明,使用DATASHI语料库进行少样本学习可以显著提升大型语言模型在塔什利特语上的性能。
📝 摘要(中文)
DATASHI是一个新的平行英-塔什利特语料库,填补了阿马齐格语计算资源的空白。它包含5000个句子对,其中包括一个1500句子的子集,该子集包含专家标准化版本和非标准用户生成版本,从而能够系统地研究正字法的多样性和标准化。这种双重设计支持基于文本的自然语言处理任务,如分词、翻译和标准化,并为语音数据收集和多模态对齐奠定基础。使用最先进的大型语言模型(GPT-5、Claude-Sonnet-4.5、Gemini-2.5-Pro、Mistral、Qwen3-Max)进行的综合评估表明,从零样本到少样本提示都有明显的改进,其中Gemini-2.5-Pro实现了最低的词和字符级别错误率,并表现出强大的跨语言泛化能力。对语音类(重音、强调音、小舌音和咽音)的编辑操作(删除、替换和插入)的细粒度分析进一步突出了模型对塔什利特语特征的敏感性,并为低资源阿马齐格语正字法标准化提供了新的诊断见解。
🔬 方法详解
问题定义:论文旨在解决阿马齐格语,特别是塔什利特语,在自然语言处理领域资源匮乏的问题。现有方法在处理非标准化的用户生成文本时表现不佳,正字法多样性给模型带来了挑战。缺乏高质量的平行语料库是主要痛点。
核心思路:论文的核心思路是构建一个高质量的平行语料库,包含英语和塔什利特语的句子对,并且在塔什利特语部分同时提供专家标准化版本和用户生成版本。这样,模型既可以学习两种语言之间的对应关系,又可以学习如何将非标准文本转换为标准文本。
技术框架:DATASHI语料库的构建流程包括:1) 收集英语句子;2) 将英语句子翻译成塔什利特语;3) 由专家对塔什利特语翻译进行标准化,生成标准版本;4) 保留原始的、用户生成的非标准版本。该语料库被用于评估大型语言模型在塔什利特语上的零样本和少样本学习性能。评估指标包括词级别和字符级别的错误率。
关键创新:该论文的关键创新在于构建了一个包含专家标准化和用户生成文本的平行语料库,这使得研究人员能够系统地研究正字法的多样性和标准化问题。此外,论文还对不同大型语言模型在处理塔什利特语时的表现进行了细粒度的分析,揭示了模型对特定语音类的敏感性。
关键设计:语料库包含5000个句子对,其中1500个句子对包含专家标准化和用户生成版本。论文评估了多个大型语言模型,包括GPT-5、Claude-Sonnet-4.5、Gemini-2.5-Pro、Mistral和Qwen3-Max。实验采用了零样本和少样本学习设置,并使用词级别和字符级别的错误率作为评估指标。论文还对编辑操作(删除、替换和插入)进行了细粒度的分析,以了解模型对不同语音类的敏感性。
📊 实验亮点
实验结果表明,Gemini-2.5-Pro在塔什利特语上的表现最佳,实现了最低的词和字符级别错误率,并表现出强大的跨语言泛化能力。通过少样本学习,所有评估的模型在塔什利特语上的性能都得到了显著提升。对编辑操作的细粒度分析揭示了模型对特定语音类的敏感性,为正字法标准化提供了新的诊断见解。
🎯 应用场景
该研究成果可应用于机器翻译、语音识别、文本标准化等领域,尤其是在低资源语言的自然语言处理中具有重要价值。DATASHI语料库可以促进阿马齐格语的数字化和保护,并为相关语言技术的发展奠定基础。未来,该语料库可以扩展到其他阿马齐格语方言,并与其他类型的资源(如语音数据)相结合。
📄 摘要(原文)
DATASHI is a new parallel English-Tashlhiyt corpus that fills a critical gap in computational resources for Amazigh languages. It contains 5,000 sentence pairs, including a 1,500-sentence subset with expert-standardized and non-standard user-generated versions, enabling systematic study of orthographic diversity and normalization. This dual design supports text-based NLP tasks - such as tokenization, translation, and normalization - and also serves as a foundation for read-speech data collection and multimodal alignment. Comprehensive evaluations with state-of-the-art Large Language Models (GPT-5, Claude-Sonnet-4.5, Gemini-2.5-Pro, Mistral, Qwen3-Max) show clear improvements from zero-shot to few-shot prompting, with Gemini-2.5-Pro achieving the lowest word and character-level error rates and exhibiting robust cross-lingual generalization. A fine-grained analysis of edit operations - deletions, substitutions, and insertions - across phonological classes (geminates, emphatics, uvulars, and pharyngeals) further highlights model-specific sensitivities to marked Tashlhiyt features and provides new diagnostic insights for low-resource Amazigh orthography normalization.