Transfer Learning for an Endangered Slavic Variety: Dependency Parsing in Pomak Across Contact-Shaped Dialects

📄 arXiv: 2603.28033v1 📥 PDF

作者: Sercan Karakaş

分类: cs.CL

发布日期: 2026-03-30

备注: Accepted to DialRes-LREC26 (Workshop on Dialects in NLP A Resource Perspective)


💡 一句话要点

针对濒危斯拉夫语波马克语,提出跨方言迁移的依存句法分析方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 依存句法分析 迁移学习 濒危语言 波马克语 跨方言 自然语言处理 资源匮乏

📋 核心要点

  1. 波马克语方言众多且缺乏标准,现有方法难以有效处理土耳其方言的依存句法分析。
  2. 利用希腊方言数据训练的模型进行迁移学习,并使用少量土耳其方言数据进行微调。
  3. 实验表明,少量目标方言数据微调能显著提升性能,跨方言迁移学习进一步提高准确率。

📝 摘要(中文)

本文针对波马克语(一种濒危的东部南斯拉夫语)的依存句法分析,提出了新的资源和基线。波马克语具有显著的方言变异性,且缺乏广泛采用的标准。本文关注在土耳其(乌尊科普鲁)使用的变体,并研究了在主要基于希腊使用的变体构建的现有波马克语通用依存树库上训练的依存句法分析器,在跨方言迁移时的表现。我们进行了两个实验阶段。首先,我们在希腊变体UD数据上训练了一个分析器,并评估了到土耳其变体波马克语的零样本迁移,量化了语音和形态句法差异的影响。其次,我们引入了一个新的手动标注的土耳其变体波马克语语料库,包含650个句子,并表明,尽管其规模很小,但有针对性的微调可以显著提高准确性;通过结合两种方言的跨方言迁移学习,性能得到进一步提升。

🔬 方法详解

问题定义:本文旨在解决波马克语,特别是土耳其方言的依存句法分析问题。由于波马克语是一种濒危语言,并且存在显著的方言差异,现有的依存句法分析资源和方法主要集中在希腊方言上,缺乏对土耳其方言的有效支持。直接将希腊方言训练的模型应用于土耳其方言,会因为语音和形态句法差异导致性能下降。

核心思路:本文的核心思路是利用迁移学习,将已有的希腊方言的标注数据作为源领域知识,迁移到土耳其方言的依存句法分析任务中。通过在少量土耳其方言数据上进行微调,可以使模型更好地适应目标方言的特点,从而提高分析准确率。同时,结合两种方言的数据进行联合训练,进一步提升模型的泛化能力。

技术框架:整体框架包括以下几个阶段:1) 基于希腊方言的通用依存树库(UD)数据训练依存句法分析器;2) 对训练好的分析器进行零样本迁移,直接应用于土耳其方言数据,评估性能;3) 构建一个新的手动标注的土耳其方言语料库;4) 使用土耳其方言语料库对分析器进行微调;5) 结合希腊和土耳其方言数据进行跨方言迁移学习,训练最终的依存句法分析器。

关键创新:本文的关键创新在于针对濒危且方言差异显著的波马克语,探索了跨方言迁移学习在依存句法分析中的应用。通过结合源方言数据和少量目标方言数据,有效地解决了目标方言数据稀缺的问题,并显著提高了依存句法分析的准确率。

关键设计:论文使用了标准的依存句法分析模型(具体模型类型未知,原文未提及),并采用通用依存关系标注体系。关键设计在于微调策略和跨方言联合训练方法。微调策略可能包括选择合适的学习率、迭代次数等超参数。跨方言联合训练方法可能包括简单的数据混合、领域对抗训练等(具体方法未知,原文未提及)。损失函数采用标准的交叉熵损失函数(推测)。

📊 实验亮点

实验结果表明,在希腊方言数据上训练的模型直接迁移到土耳其方言时性能较低,但通过在650句土耳其方言数据上进行微调,依存句法分析准确率得到显著提升。进一步结合两种方言的数据进行跨方言迁移学习,性能得到进一步提升(具体提升幅度未知,原文未提供具体数值)。

🎯 应用场景

该研究成果可应用于濒危语言的自然语言处理任务,特别是依存句法分析。通过迁移学习和少量目标语言数据微调,可以有效解决资源匮乏问题,为保护和传承濒危语言提供技术支持。此外,该方法也可推广到其他方言差异显著的语言,提升跨方言自然语言处理的性能。

📄 摘要(原文)

This paper presents new resources and baselines for Dependency Parsing in Pomak, an endangered Eastern South Slavic language with substantial dialectal variation and no widely adopted standard. We focus on the variety spoken in Turkey (Uzunköprü) and ask how well a dependency parser trained on the existing Pomak Universal Dependencies treebank, which was built primarily from the variety that is spoken in Greece, transfers across dialects. We run two experimental phases. First, we train a parser on the Greek-variety UD data and evaluate zero-shot transfer to Turkish-variety Pomak, quantifying the impact of phonological and morphosyntactic differences. Second, we introduce a new manually annotated Turkish-variety Pomak corpus of 650 sentences and show that, despite its small size, targeted fine-tuning substantially improves accuracy; performance is further boosted by cross-variety transfer learning that combines the two dialects.