Under-resourced studies of under-resourced languages: lemmatization and POS-tagging with LLM annotators for historical Armenian, Georgian, Greek and Syriac

📄 arXiv: 2602.15753v1 📥 PDF

作者: Chahan Vidal-Gorène, Bastien Kindt, Florian Cafiero

分类: cs.CL

发布日期: 2026-02-17


💡 一句话要点

利用大型语言模型标注器,研究低资源语言的词形还原和词性标注

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低资源语言处理 词形还原 词性标注 大型语言模型 零样本学习

📋 核心要点

  1. 低资源语言在词形还原和词性标注等自然语言处理任务中面临持续挑战,现有方法效果不佳。
  2. 利用大型语言模型(LLMs)的零样本和少样本学习能力,直接应用于低资源语言的标注任务。
  3. 实验表明,LLMs在词性标注和词形还原方面表现出竞争力,尤其是在少量样本情况下,优于特定任务的RNN基线。

📝 摘要(中文)

本文研究了近期大型语言模型(LLMs),包括GPT-4变体和开源Mistral模型,在少量样本和零样本设置下,处理四种历史悠久且语言多样的低资源语言(古希腊语、古典亚美尼亚语、古格鲁吉亚语和叙利亚语)的词形还原和词性(POS)标注任务的能力。我们使用包含对齐的训练和领域外测试语料库的新型基准,评估了基础模型在词形还原和词性标注方面的性能,并将其与PIE(一种特定于任务的RNN基线)进行了比较。结果表明,即使没有微调,LLM在大多数语言的少量样本设置中,在词性标注和词形还原方面也取得了具有竞争力或更优越的性能。对于以复杂形态和非拉丁文字为特征的语言,仍然存在重大挑战,但我们证明了LLM是在缺乏数据的情况下启动语言注释任务的可信且相关的选择,可以作为注释的有效辅助手段。

🔬 方法详解

问题定义:论文旨在解决低资源语言的词形还原和词性标注问题。现有方法在这些语言上表现不佳,因为缺乏足够的标注数据来训练模型。这限制了对这些语言进行更高级的自然语言处理任务的能力。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大泛化能力,即使在没有大量特定语言数据的情况下,也能进行有效的词形还原和词性标注。LLMs已经在大量文本数据上进行了预训练,因此它们可以利用这些知识来处理新的语言。

技术框架:该研究使用了一个包含对齐的训练和领域外测试语料库的新型基准。研究人员评估了各种LLM(包括GPT-4变体和Mistral模型)在少量样本和零样本设置下的性能。他们将LLM的性能与PIE(一种特定于任务的RNN基线)进行了比较。整体流程包括:数据准备、模型选择、少量样本/零样本设置配置、模型推理、结果评估。

关键创新:该研究的关键创新在于探索了LLM在低资源语言标注任务中的潜力,并证明了即使没有微调,LLM也可以在这些任务中取得有竞争力的性能。此外,该研究还提出了一个用于评估LLM在低资源语言上的性能的新型基准。

关键设计:研究中使用了不同的提示工程方法来指导LLM进行词形还原和词性标注。具体来说,研究人员设计了少量样本示例,以向LLM展示如何执行这些任务。此外,研究人员还使用了不同的解码策略来生成最终的标注结果。对于PIE基线,使用了标准的RNN架构,并针对特定任务进行了优化。损失函数为交叉熵损失。

📊 实验亮点

实验结果表明,LLM在大多数语言的少量样本设置中,在词性标注和词形还原方面取得了具有竞争力或更优越的性能,甚至在某些情况下优于特定任务的RNN基线PIE。这表明LLM在低资源语言处理方面具有巨大的潜力。

🎯 应用场景

该研究成果可应用于历史文献数字化、低资源语言的机器翻译、语言学研究等领域。通过利用LLM进行初步标注,可以大大降低人工标注的成本,加速低资源语言的NLP研究进程,并促进对这些语言的保护和传承。

📄 摘要(原文)

Low-resource languages pose persistent challenges for Natural Language Processing tasks such as lemmatization and part-of-speech (POS) tagging. This paper investigates the capacity of recent large language models (LLMs), including GPT-4 variants and open-weight Mistral models, to address these tasks in few-shot and zero-shot settings for four historically and linguistically diverse under-resourced languages: Ancient Greek, Classical Armenian, Old Georgian, and Syriac. Using a novel benchmark comprising aligned training and out-of-domain test corpora, we evaluate the performance of foundation models across lemmatization and POS-tagging, and compare them with PIE, a task-specific RNN baseline. Our results demonstrate that LLMs, even without fine-tuning, achieve competitive or superior performance in POS-tagging and lemmatization across most languages in few-shot settings. Significant challenges persist for languages characterized by complex morphology and non-Latin scripts, but we demonstrate that LLMs are a credible and relevant option for initiating linguistic annotation tasks in the absence of data, serving as an effective aid for annotation.