Tokenizer Fertility and Zero-Shot Performance of Foundation Models on Ukrainian Legal Text: A Comparative Study

📄 arXiv: 2605.14890v1 📥 PDF

作者: Volodymyr Ovcharov

分类: cs.CL

发布日期: 2026-05-14

备注: 22 pages, 21 tables, 3 figures


💡 一句话要点

对比研究:乌克兰语法律文本上大模型分词器效率与零样本性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 乌克兰语法律文本 基础模型 分词器效率 零样本学习 少量样本学习 基准测试 自然语言处理

📋 核心要点

  1. 现有方法缺乏对乌克兰语法律文本上大模型分词器效率的系统性比较,导致API成本控制困难。
  2. 该研究通过基准测试多个模型在乌克兰语法律文本上的分词效率和零样本性能,揭示了不同模型之间的显著差异。
  3. 实验表明,NVIDIA Nemotron Super 3在成本效益方面优于更大的Mistral Large 3,且少量样本提示反而降低性能。

📝 摘要(中文)

本文针对乌克兰语法律文本,对多个基础模型的分词效率进行了系统性比较,这是该领域首次此类研究。作者在来自乌克兰国家登记处(EDRSR)的273个经过验证的法院判决上,对来自五个提供商的七个模型进行了基准测试,评估了它们的分词器效率和在三个任务上的零样本性能。研究发现:(1)分词器效率差异高达1.6倍,例如,Qwen3模型在相同输入上消耗的token比Llama系列模型多60%,直接增加了API成本。(2) NVIDIA Nemotron Super 3 (120B)取得了最高的综合评分(83.1),优于Mistral Large 3 (总参数675B,活跃参数41B)——一个参数量是其5.6倍(活跃参数是其3.4倍)的模型,且API成本仅为其三分之一。(3) 少量样本提示会降低高达26个百分点的性能;分层和提示敏感性消融实验证实,这是乌克兰语演示的内在属性,而非示例选择的人为因素。对于从业者而言,在模型选择之前应进行分词器分析,并且对于形态丰富的语言,零样本学习比少量样本学习更可靠。

🔬 方法详解

问题定义:论文旨在解决乌克兰语法律文本处理中,不同基础模型分词效率差异大,导致API成本不可控的问题。现有方法缺乏对该领域分词器效率的系统性比较,从业者难以选择最优模型。此外,对于形态丰富的乌克兰语,少量样本学习的有效性也存疑。

核心思路:论文的核心思路是通过构建一个乌克兰语法律文本数据集,并在此数据集上对多个主流基础模型进行基准测试,重点关注分词器效率和零样本/少量样本性能。通过量化不同模型的分词效率和任务性能,为从业者提供模型选择的依据。同时,通过消融实验分析少量样本学习对乌克兰语文本的影响。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集与验证:从乌克兰国家登记处(EDRSR)收集273个法院判决,并进行数据清洗和验证。2) 模型选择:选择来自五个提供商的七个主流基础模型,包括Qwen、Llama、NVIDIA Nemotron和Mistral等。3) 任务定义:定义三个与法律文本相关的任务,用于评估模型的性能。4) 基准测试:在数据集上对模型进行基准测试,测量分词器效率(token数量)和零样本/少量样本性能。5) 消融实验:进行分层和提示敏感性消融实验,分析少量样本学习对性能的影响。

关键创新:该研究的创新点在于:1) 首次针对乌克兰语法律文本,对多个基础模型的分词器效率进行了系统性比较。2) 揭示了少量样本提示在乌克兰语文本上可能导致性能下降的现象,并进行了深入分析。3) 为从业者提供了在乌克兰语法律文本处理中选择模型的实用指南。

关键设计:在实验设计方面,论文采用了以下关键设计:1) 使用真实的乌克兰语法律文本数据集,保证了实验的实用性。2) 选择了具有代表性的基础模型,覆盖了不同的架构和参数规模。3) 定义了与法律文本相关的任务,能够有效评估模型的性能。4) 通过消融实验,深入分析了少量样本学习的影响。在性能评估方面,使用了准确率等指标来量化模型的性能。

📊 实验亮点

NVIDIA Nemotron Super 3 (120B) 在综合评分上超越了参数量更大的 Mistral Large 3 (675B),且API成本仅为其三分之一。实验还发现,少量样本提示会使性能降低高达26个百分点,这表明对于乌克兰语等形态丰富的语言,零样本学习可能优于少量样本学习。

🎯 应用场景

该研究成果可应用于乌克兰语法律文本处理的多个领域,例如法律文件自动摘要、合同条款抽取、法律咨询问答等。通过选择合适的基础模型,可以有效降低API成本,提高处理效率。研究结果也为其他形态丰富语言的文本处理提供了参考,有助于提升相关任务的性能。

📄 摘要(原文)

Foundation models tokenize Ukrainian legal text with vastly different efficiency, yet no systematic comparison exists for this domain. We benchmark seven models from five providers on 273 validated court decisions from Ukraine's state registry (EDRSR), measuring tokenizer fertility and zero-shot performance on three tasks. Three findings emerge. (1) Tokenizer fertility varies 1.6x: Qwen3 models consume 60% more tokens than Llama-family models on identical input, directly reducing API cost. (2) NVIDIA Nemotron Super 3 (120B) achieves the highest composite score (83.1), outperforming Mistral Large 3 (675B total, 41B active) -- a model with 5.6x more total parameters and 3.4x more active parameters per token -- at one-third the API cost. (3) Few-shot prompting degrades performance by up to 26 percentage points; stratified and prompt-sensitivity ablations confirm this is intrinsic to Ukrainian-language demonstrations, not an artifact of example selection. For practitioners: tokenizer analysis should precede model selection, and zero-shot is a more reliable default than few-shot for morphologically rich languages.