BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization

📄 arXiv: 2505.24689v1 📥 PDF

作者: Sander Land, Catherine Arnett

分类: cs.CL

发布日期: 2025-05-30

备注: 9 pages, 2 figures. For associated code, see https://github.com/sanderland/script_bpe


💡 一句话要点

提出SCRIPT以解决多语言预标记化中的挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 字节对编码 多语言处理 预标记化 Unicode 自然语言处理 机器翻译

📋 核心要点

  1. 现有的BPE标记器在多语言环境中存在对非西方脚本的惩罚和部分UTF-8序列的生成问题。
  2. 提出SCRIPT编码方案,基于Unicode脚本和类别属性进行初始标记,简化预标记化过程。
  3. 实验结果显示SCRIPT-BPE在压缩效果上具有竞争力,并消除了对非拉丁脚本语言的编码惩罚。

📝 摘要(中文)

字节对编码(BPE)标记器在多语言环境中面临诸多挑战,包括对非西方字符集的惩罚以及生成部分UTF-8序列的标记。预标记化通常依赖复杂的正则表达式,这可能引入脆弱性和意外的边缘情况。本文提出SCRIPT(脚本类别表示预标记化),一种新颖的编码方案,通过基于Unicode脚本和类别属性的初始标记,绕过UTF-8字节转换。这种方法实现了一种简单的基于规则的预标记化策略,尊重脚本边界,为基于正则表达式的预标记化策略提供了稳健的替代方案。我们还引入并验证了一种约束BPE合并策略,确保字符完整性,适用于SCRIPT-BPE和基于字节的BPE。实验表明,SCRIPT-BPE在消除非拉丁字符语言的编码惩罚的同时,实现了竞争力的压缩效果。

🔬 方法详解

问题定义:本文旨在解决BPE标记器在多语言环境中面临的挑战,特别是对非西方字符集的惩罚和部分UTF-8序列的生成问题。现有的预标记化方法依赖复杂的正则表达式,容易引入脆弱性和边缘情况。

核心思路:SCRIPT通过基于Unicode脚本和类别属性的初始标记,避免了UTF-8字节转换,从而实现了一种简单且稳健的预标记化策略。这种设计使得标记化过程更加可靠,并且能够更好地处理多语言文本。

技术框架:整体架构包括SCRIPT编码模块和约束BPE合并策略。SCRIPT模块负责根据Unicode属性生成初始标记,而约束BPE合并策略则确保字符的完整性,适用于SCRIPT-BPE和传统BPE。

关键创新:最重要的创新在于SCRIPT编码方案,它通过尊重脚本边界,提供了一种新的预标记化方法,与传统的基于正则表达式的策略相比,显著提高了稳健性和准确性。

关键设计:在设计中,SCRIPT采用了基于Unicode的初始标记生成规则,并引入了约束BPE合并策略,以确保字符的完整性和压缩效果。具体的参数设置和损失函数设计尚未详细说明,属于未知领域。

📊 实验亮点

实验结果表明,SCRIPT-BPE在压缩效果上与传统方法相比具有竞争力,同时消除了对非拉丁脚本语言的编码惩罚。具体性能数据尚未披露,属于未知领域,但整体提升幅度显著。

🎯 应用场景

该研究的潜在应用领域包括多语言处理、自然语言理解和机器翻译等。通过提供更稳健的预标记化方案,SCRIPT可以显著提升多语言模型的性能,尤其是在处理非拉丁字符集时,具有重要的实际价值和未来影响。

📄 摘要(原文)

Byte Pair Encoding (BPE) tokenizers, widely used in Large Language Models, face challenges in multilingual settings, including penalization of non-Western scripts and the creation of tokens with partial UTF-8 sequences. Pretokenization, often reliant on complex regular expressions, can also introduce fragility and unexpected edge cases. We propose SCRIPT (Script Category Representation in PreTokenization), a novel encoding scheme that bypasses UTF-8 byte conversion by using initial tokens based on Unicode script and category properties. This approach enables a simple, rule-based pretokenization strategy that respects script boundaries, offering a robust alternative to pretokenization strategies based on regular expressions. We also introduce and validate a constrained BPE merging strategy that enforces character integrity, applicable to both SCRIPT-BPE and byte-based BPE. Our experiments demonstrate that SCRIPT-BPE achieves competitive compression while eliminating encoding-based penalties for non-Latin-script languages.