SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers

📄 arXiv: 2601.04469v1 📥 PDF

作者: Iaroslav Chelombitko, Ekaterina Chelombitko, Aleksey Komissarov

分类: cs.CL, cs.IR, cs.LG

发布日期: 2026-01-08

备注: Accepted to the 10th International Workshop on Computational Linguistics for Uralic Languages (IWCLUL 2025), pp. 57-67

🔗 代码/项目: GITHUB


💡 一句话要点

SampoNLP:一种自参照工具包,用于亚词分词器的形态分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 亚词分词 形态分析 低资源语言 自参照学习 BPE分词器

📋 核心要点

  1. 现有方法缺乏干净的语素词典,难以评估乌拉尔语系等形态丰富语言的分词器。
  2. SampoNLP利用自参照原子性评分,无需语料库即可创建高纯度形态词典,适用于低资源场景。
  3. 通过综合性能得分(IPS)评估BPE分词器,为芬兰语、匈牙利语和爱沙尼亚语推荐最佳词汇量。

📝 摘要(中文)

亚词分词的质量对于大型语言模型至关重要,然而,由于缺乏干净的语素词典,评估针对形态丰富的乌拉尔语系语言的分词器变得困难。我们介绍了SampoNLP,一个无需语料库的工具包,用于创建形态词典,它使用受MDL启发的自参照原子性评分,通过内部结构线索过滤复合形式,适用于低资源环境。利用SampoNLP为芬兰语、匈牙利语和爱沙尼亚语生成的高纯度词典,我们对各种词汇量大小(8k-256k)的BPE分词器进行了系统评估。我们提出了一个统一的指标,即综合性能得分(IPS),以应对语素覆盖率和过度分割之间的权衡。通过分析IPS曲线,我们确定了收益递减的“肘点”,并为这些语言的最佳词汇量大小(k)提供了第一个基于经验的建议。我们的研究不仅提供了实用的指导,而且定量地证明了标准BPE对于高度粘着性语言的局限性。SampoNLP库和所有生成的资源均已公开发布。

🔬 方法详解

问题定义:论文旨在解决形态丰富语言(如芬兰语、匈牙利语和爱沙尼亚语)的亚词分词器评估问题。现有方法依赖于高质量的语素词典,但这些资源通常匮乏或不完整,导致分词器性能评估不准确,难以确定最佳词汇量大小。

核心思路:论文的核心思路是利用一种自参照的方法,无需外部语料库,仅通过分析词的内部结构来构建高纯度的语素词典。这种方法基于最小描述长度(MDL)原则,认为一个好的语素应该具有较高的“原子性”,即难以进一步分解成更有意义的子单元。

技术框架:SampoNLP工具包包含以下主要阶段:1) 自参照原子性评分:计算每个亚词的原子性得分,用于衡量其作为独立语素的可能性。2) 词典生成:基于原子性得分过滤复合形式,生成高纯度的语素词典。3) 分词器评估:使用生成的词典评估不同词汇量大小的BPE分词器。4) 综合性能得分(IPS)计算:结合语素覆盖率和过度分割率,计算IPS指标,用于评估分词器的整体性能。

关键创新:该方法最重要的创新点在于其自参照的特性,无需依赖外部语料库或人工标注,即可构建高质量的语素词典。这使得该方法特别适用于低资源语言或缺乏高质量语料库的场景。此外,IPS指标的提出,提供了一种统一的评估标准,可以有效权衡语素覆盖率和过度分割之间的矛盾。

关键设计:自参照原子性评分基于对亚词内部结构的分析,具体计算方法未知。IPS指标的计算方式未知,但其目标是平衡语素覆盖率(希望覆盖更多语素)和过度分割(希望避免将语素分割成更小的无意义单元)。论文通过分析IPS曲线的“肘点”,来确定最佳的词汇量大小。

📊 实验亮点

论文通过实验证明,SampoNLP能够为芬兰语、匈牙利语和爱沙尼亚语生成高纯度的语素词典。利用这些词典,论文对BPE分词器进行了系统评估,并提出了基于IPS指标的最佳词汇量建议。实验结果表明,标准BPE对于高度粘着性语言存在局限性,需要针对性地进行优化。

🎯 应用场景

该研究成果可应用于低资源语言的自然语言处理任务,例如机器翻译、文本分类和信息检索。通过SampoNLP生成的词典和评估方法,可以帮助研究人员和开发者选择和优化亚词分词器,从而提高这些任务的性能。此外,该研究也为其他形态丰富语言的分词器评估提供了借鉴。

📄 摘要(原文)

The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons. We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings. Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP