BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization

📄 arXiv: 2505.24689v1 📥 PDF

作者: Sander Land, Catherine Arnett

分类: cs.CL

发布日期: 2025-05-30

备注: 9 pages, 2 figures. For associated code, see https://github.com/sanderland/script_bpe


💡 一句话要点

提出SCRIPT编码,增强BPE在多语言预分词中的鲁棒性,避免非西方文字的惩罚。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言分词 字节对编码 预分词 Unicode 脚本类别 自然语言处理 大型语言模型 鲁棒性

📋 核心要点

  1. 现有BPE分词器在多语言场景中对非西方文字存在不公平惩罚,且预分词依赖复杂正则表达式易出错。
  2. SCRIPT编码利用Unicode脚本和类别属性,避免UTF-8转换,实现简单且尊重脚本边界的预分词。
  3. 实验表明,SCRIPT-BPE在保证压缩性能的同时,有效消除了对非拉丁文字语言的编码惩罚。

📝 摘要(中文)

字节对编码(BPE)分词器广泛应用于大型语言模型,但在多语言环境中面临挑战,包括对非西方文字的惩罚以及生成包含部分UTF-8序列的token。预分词通常依赖于复杂的正则表达式,这可能引入脆弱性和意想不到的边缘情况。我们提出SCRIPT(预分词中的脚本类别表示),一种新颖的编码方案,通过使用基于Unicode脚本和类别属性的初始token来绕过UTF-8字节转换。这种方法实现了一种简单的、基于规则的预分词策略,尊重脚本边界,为基于正则表达式的预分词策略提供了一种鲁棒的替代方案。我们还介绍并验证了一种约束BPE合并策略,该策略强制执行字符完整性,适用于SCRIPT-BPE和基于字节的BPE。我们的实验表明,SCRIPT-BPE在实现有竞争力的压缩的同时,消除了基于编码的对非拉丁文字语言的惩罚。

🔬 方法详解

问题定义:现有基于字节的BPE分词器在处理多语言文本时,会将不同语言的字符编码成UTF-8字节序列,导致非拉丁语系字符被分割成更多token,从而受到不公平的“惩罚”。同时,预分词阶段通常依赖复杂的正则表达式,容易引入错误和边界情况,影响分词的稳定性和准确性。

核心思路:论文的核心思路是避免直接使用UTF-8字节作为初始token,而是利用Unicode字符的脚本(Script)和类别(Category)属性来构建初始token集合。这样可以保证同一脚本的字符在预分词阶段不会被错误地分割,从而避免了对非拉丁语系字符的惩罚。同时,使用基于规则的简单预分词策略替代复杂的正则表达式,提高了预分词的鲁棒性。

技术框架:SCRIPT-BPE的整体流程如下:1. SCRIPT编码:将输入文本根据Unicode脚本和类别属性进行编码,生成初始token序列。2. 预分词:使用基于规则的简单策略,根据脚本边界对token序列进行分割。3. BPE合并:使用约束BPE合并策略,保证字符的完整性,生成最终的token集合。

关键创新:最重要的技术创新点在于SCRIPT编码,它利用Unicode字符的脚本和类别属性,避免了直接使用UTF-8字节作为初始token,从而消除了对非拉丁语系字符的编码惩罚。此外,约束BPE合并策略也是一个创新点,它保证了字符的完整性,避免了将一个字符分割成多个token。

关键设计:SCRIPT编码的关键设计在于如何选择合适的Unicode脚本和类别属性。论文中具体使用了哪些属性以及如何组合这些属性来生成初始token集合,这些细节决定了SCRIPT编码的有效性。此外,约束BPE合并策略的具体实现方式,例如如何定义字符完整性的约束条件,也是一个重要的技术细节。论文中可能还涉及一些超参数的设置,例如BPE合并的次数等。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,SCRIPT-BPE在实现与传统BPE相当的压缩性能的同时,显著降低了对非拉丁语系字符的编码惩罚。具体而言,在多语言数据集上,SCRIPT-BPE能够生成更平衡的token分布,避免了非拉丁语系字符被过度分割的问题。虽然论文中没有给出具体的性能提升数据,但强调了其在公平性方面的优势。

🎯 应用场景

该研究成果可广泛应用于多语言自然语言处理任务,例如机器翻译、跨语言信息检索、多语言文本分类等。通过消除对非拉丁语系字符的编码惩罚,可以提高模型在这些任务上的性能,并促进更公平的多语言AI发展。未来,该方法可以进一步扩展到处理更多语言和字符集,并与其他预训练技术相结合。

📄 摘要(原文)

Byte Pair Encoding (BPE) tokenizers, widely used in Large Language Models, face challenges in multilingual settings, including penalization of non-Western scripts and the creation of tokens with partial UTF-8 sequences. Pretokenization, often reliant on complex regular expressions, can also introduce fragility and unexpected edge cases. We propose SCRIPT (Script Category Representation in PreTokenization), a novel encoding scheme that bypasses UTF-8 byte conversion by using initial tokens based on Unicode script and category properties. This approach enables a simple, rule-based pretokenization strategy that respects script boundaries, offering a robust alternative to pretokenization strategies based on regular expressions. We also introduce and validate a constrained BPE merging strategy that enforces character integrity, applicable to both SCRIPT-BPE and byte-based BPE. Our experiments demonstrate that SCRIPT-BPE achieves competitive compression while eliminating encoding-based penalties for non-Latin-script languages.