Separate Before You Compress: The WWHO Tokenization Architecture

📄 arXiv: 2603.25309v1 📥 PDF

作者: Kusal Darshana

分类: cs.CL

发布日期: 2026-03-26

备注: 17 pages, 1 figure, 8 tables. Tokenization Architecture including formal DFA definitions and regular expressions for Sinhala and Devanagari syllabification. Evaluation includes comparisons with OpenAI o200k-base, Llama-4-Scout, and DeepSeek-V3. Source code and datasets: https://github.com/remeinium/WWHO


💡 一句话要点

提出WWHO分词架构,解决复杂Abugida文字Token Tax问题,提升LLM效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分词算法 Abugida文字 Token Tax 语言模型 自然语言处理

📋 核心要点

  1. 现有基于BPE的分词器在处理结构复杂的Abugida文字时,会将字素簇分解为无意义的子字符单元,导致LLM推理效率降低。
  2. 论文提出WWHO架构和SGPE算法,将文字的语言规则与统计压缩分离,实现高效的多语言分词,降低Token Tax。
  3. 实验表明,SGPE在僧伽罗语和印地语上显著降低了Token数量,有效扩展了LLM的上下文窗口,并保证了音节的完整性。

📝 摘要(中文)

当前的大型语言模型(LLM)主要使用基于BPE(Byte Pair Encoding)的分词器,这种分词器对于像英语这样结构简单的拉丁文字非常有效。然而,由于结构复杂,标准的BPE分词器在处理复杂的Abugida文字时表现不佳。问题在于,这些分词器会将复杂的多码位字素簇(conjuncts)分解为无意义的子字符单元。这降低了LLM的推理效率,迫使其在推理时学习基本的正字法结构,并增加了推理成本,从而导致全球南方国家面临显著的“Token Tax”。我们提出了一种新的三层架构WWHO(Where-What-How Often)和一个名为SGPE(Syllable-aware Grapheme Pair Encoding)的算法,该算法将文字的语言规则与统计压缩过程分离,同时实现无缝的多语言分词。我们使用僧伽罗语和梵语(印地语/梵语)作为高度复杂的Abugida文字,在清洗后的3000万句数据集上训练了WWHO,并在1499950句测试集上进行了评估。对于僧伽罗语,SGPE实现了1.274的Token to Word Ratio(TWR),每个token包含4.83个字符,与OpenAI的o200k base相比,token减少了61.7%。对于印地语,它实现了1.181的TWR(与o200k相比减少了27.0%)。在混合文字(僧伽罗语、梵语和英语)数据集上,SGPE实现了1.240的总体TWR,相对于o200k base、Llama 4 Scout和DeepSeek V3,token分别减少了36.7%、39.6%和60.2%。这有效地将这些Abugida语言的可用上下文窗口扩展了高达4.38倍,同时确保了语言零断裂保证,即永远不会将有效的音节分割到多个token中。

🔬 方法详解

问题定义:现有基于BPE的分词器在处理如僧伽罗语、印地语等复杂的Abugida文字时,会将多码位字素簇(conjuncts)错误地分割成更小的、无意义的子字符单元。这种分割破坏了语言的结构信息,导致LLM需要在推理阶段重新学习这些基本的正字法规则,增加了计算成本,降低了效率,对资源匮乏的语言造成了“Token Tax”。

核心思路:论文的核心思路是将语言的规则(例如音节结构)与统计压缩过程解耦。通过预先定义语言的音节结构,并确保分词过程中不破坏这些结构,从而保留了语言的内在信息。这样,LLM可以直接利用这些信息进行推理,而无需从头学习,提高了效率。这种设计旨在减少token数量,同时保持语言的完整性。

技术框架:WWHO架构包含三个主要层次:Where(定位),What(识别),How Often(频率)。SGPE算法在此架构上运行,首先识别文本中的音节,然后基于音节进行Grapheme Pair Encoding。整体流程包括:1) 数据清洗和预处理;2) 使用语言学规则识别音节;3) 使用SGPE算法进行分词;4) 模型训练和评估。

关键创新:最重要的创新点在于SGPE算法的音节感知特性。与传统的BPE算法不同,SGPE在合并字符对时会考虑音节的边界,确保不会将一个音节分割成多个token。这种“Linguistic Zero-Breakage Guarantee”是该方法的核心优势。此外,WWHO架构提供了一个清晰的框架,将语言知识融入到分词过程中。

关键设计:SGPE算法的关键设计在于其音节识别模块和合并策略。音节识别模块依赖于预定义的语言学规则,用于准确识别文本中的音节。合并策略则是在传统的Grapheme Pair Encoding基础上增加了音节边界的约束,确保合并后的token不会跨越音节边界。具体的参数设置和损失函数信息在论文中未明确提及,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,SGPE在僧伽罗语上实现了1.274的TWR,token数量相比OpenAI的o200k base减少了61.7%。在印地语上,TWR为1.181,token数量减少了27.0%。在混合文字数据集上,token数量相对于o200k base、Llama 4 Scout和DeepSeek V3分别减少了36.7%、39.6%和60.2%。这些结果表明,SGPE能够显著降低Abugida文字的token数量,有效扩展LLM的上下文窗口。

🎯 应用场景

该研究成果可应用于各种需要处理复杂Abugida文字的自然语言处理任务,例如机器翻译、文本摘要、情感分析等。通过降低Token Tax,可以使LLM更好地服务于使用这些语言的用户,尤其是在计算资源有限的地区。此外,该方法也可以推广到其他具有复杂形态结构的语言,促进全球语言的平等发展。

📄 摘要(原文)

Current Large Language Models (LLMs) mostly use BPE (Byte Pair Encoding) based tokenizers, which are very effective for simple structured Latin scripts such as English. However, standard BPE tokenizers struggle to process complex Abugida scripts due to their structural complexity. The problem is that these tokenizers break complex conjuncts, which are multi-codepoint grapheme clusters, into meaningless sub-character units. This degrades the LLM's reasoning efficiency by forcing it to learn basic orthographic structures at inference time and raises inference costs, resulting in a significant "Token Tax" for the Global South. We propose a new three-layer architecture, the WWHO (Where-What-How Often), and an algorithm named SGPE (Syllable-aware Grapheme Pair Encoding) that separates the linguistic rules of the script from the statistical compression process while enabling seamless multilingual tokenization. Using Sinhala and Devanagari (Hindi/Sanskrit) as highly complex Abugida scripts, we trained WWHO on a cleaned 30-million-sentence dataset and evaluated on a 1,499,950-sentence test set. For Sinhala, SGPE achieves a Token to Word Ratio (TWR) of 1.274 with 4.83 characters per token, representing a 61.7 percent reduction in tokens compared to OpenAI's o200k base. For Hindi, it achieves a TWR of 1.181 (27.0 percent reduction vs o200k). On the mixed-script (Sinhala, Devanagari, and English) dataset, SGPE achieves an overall TWR of 1.240, representing token reductions of 36.7 percent, 39.6 percent, and 60.2 percent relative to o200k base, Llama 4 Scout, and DeepSeek V3, respectively. This effectively extends the usable context window by up to 4.38 times for these Abugida languages while ensuring a Linguistic Zero-Breakage Guarantee, which ensures that no valid syllable is ever split across multiple tokens.