What Language is This? Ask Your Tokenizer

📄 arXiv: 2602.17655v1 📥 PDF

作者: Clara Meister, Ahmetcan Yavuz, Pietro Lesci, Tiago Pimentel

分类: cs.CL

发布日期: 2026-02-19


💡 一句话要点

UniLID:基于UnigramLM分词器的语言识别方法,提升低资源场景性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言识别 低资源语言 UnigramLM 分词器 多语言处理

📋 核心要点

  1. 现有语言识别系统在低资源和近源语言上的表现不佳,限制了多语言NLP应用。
  2. UniLID利用UnigramLM分词器的概率特性,学习语言相关的unigram分布进行语言识别。
  3. 实验表明,UniLID在低资源场景下显著提升了样本效率,并在方言识别上取得了较大进展。

📝 摘要(中文)

语言识别(LID)是多语言自然语言处理流程中的重要组成部分,它有助于语料库管理、训练数据分析以及大型语言模型的跨语言评估。尽管现有系统在高资源语言上表现接近完美,但在低资源和密切相关的语言环境中仍然脆弱。我们提出了UniLID,一种简单高效的LID方法,它基于UnigramLM分词算法,并利用其概率框架、参数估计技术和推理策略。简而言之,我们学习共享分词器词汇表上的语言条件unigram分布,但将分词视为一种特定于语言的现象。我们的公式具有数据和计算效率,支持在不重新训练现有模型的情况下增量添加新语言,并且可以自然地集成到现有的语言模型分词流程中。与广泛使用的基线(包括fastText、GlotLID和CLD3)进行的实证评估表明,UniLID在标准基准上实现了具有竞争力的性能,显著提高了低资源环境中的样本效率——仅用每个语言五个标记样本即可超过70%的准确率,并在细粒度方言识别方面实现了大幅提升。

🔬 方法详解

问题定义:论文旨在解决低资源语言和近源语言的语言识别问题。现有方法在高资源语言上表现良好,但在数据稀缺或语言相似度高的情况下,性能显著下降,难以满足实际应用需求。

核心思路:UniLID的核心思路是利用UnigramLM分词器固有的概率框架进行语言建模。它将语言识别问题转化为基于unigram概率分布的分类问题,每个语言对应一个unigram模型。通过学习不同语言的unigram分布,可以区分不同语言的文本。

技术框架:UniLID的整体框架包括以下几个主要阶段:1) 构建共享的UnigramLM分词器词汇表;2) 为每个语言学习一个基于该词汇表的unigram语言模型;3) 对于给定的文本,计算其在每个语言模型下的概率;4) 选择概率最高的语言作为识别结果。该框架可以增量添加新语言,无需重新训练现有模型。

关键创新:UniLID的关键创新在于将UnigramLM分词器应用于语言识别任务。与传统方法相比,UniLID利用了分词器内部的概率信息,避免了显式特征工程,并实现了数据和计算效率的提升。此外,UniLID将分词过程视为语言相关的现象,允许模型学习特定于语言的分词模式。

关键设计:UniLID的关键设计包括:1) 使用UnigramLM算法进行分词和概率估计;2) 使用最大似然估计方法学习语言相关的unigram分布;3) 使用对数概率进行数值稳定性处理;4) 可以通过调整UnigramLM的超参数(如词汇表大小)来控制模型的复杂度和性能。

📊 实验亮点

UniLID在标准基准测试中表现出与fastText、GlotLID和CLD3等基线方法相当的性能。更重要的是,在低资源场景下,UniLID展现出显著的样本效率优势,仅使用每个语言五个标记样本即可达到超过70%的准确率。此外,UniLID在细粒度方言识别方面也取得了显著的性能提升。

🎯 应用场景

UniLID可应用于多语言信息检索、机器翻译、跨语言文本分类等领域。它能够自动识别文本的语言,从而为后续的语言处理任务提供支持。尤其在低资源语言场景下,UniLID能够有效提升语言识别的准确率,具有重要的实际应用价值,并有望促进低资源语言NLP技术的发展。

📄 摘要(原文)

Language Identification (LID) is an important component of many multilingual natural language processing pipelines, where it facilitates corpus curation, training data analysis, and cross-lingual evaluation of large language models. Despite near-perfect performance on high-resource languages, existing systems remain brittle in low-resource and closely related language settings. We introduce UniLID, a simple and efficient LID method based on the UnigramLM tokenization algorithm, leveraging its probabilistic framing, parameter estimation technique and inference strategy. In short, we learn language-conditional unigram distributions over a shared tokenizer vocabulary but treat segmentation as a language-specific phenomenon. Our formulation is data- and compute-efficient, supports incremental addition of new languages without retraining existing models, and can naturally be integrated into existing language model tokenization pipelines. Empirical evaluations against widely used baselines, including fastText, GlotLID, and CLD3, show that UniLID achieves competitive performance on standard benchmarks, substantially improves sample efficiency in low-resource settings - surpassing 70% accuracy with as few as five labeled samples per language - and delivers large gains on fine-grained dialect identification.