A Triadic Suffix Tokenization Scheme for Numerical Reasoning

📄 arXiv: 2604.11582v1 📥 PDF

作者: Olga Chetverina

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-13

备注: 8 pages, 1 figure. This is a theoretical proposal of a novel numbers tokenization for LLMs. The code is available on GitHub. Previous version archived at Zenodo: DOI 10.5281/zenodo.18999577


💡 一句话要点

提出三元后缀分词(TST)方案,解决LLM数值推理中数字分词不一致问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数值推理 大型语言模型 分词算法 量级表示 三元后缀分词

📋 核心要点

  1. 现有子词分词方法在处理数字时缺乏一致性,导致LLM难以捕捉数字的位置和量级信息,影响数值推理能力。
  2. 提出三元后缀分词(TST)方案,将数字划分为三位数组,并使用显式量级标记注释,从而保留数字的量级信息。
  3. TST方案具有架构无关性,可作为预处理步骤集成到现有模型中,并具有良好的可扩展性,能够处理任意精度和范围的数字。

📝 摘要(中文)

标准子词分词方法对数字的分词方式不一致,导致大型语言模型(LLM)丢失位置和十进制结构,这是算术和科学推理中错误的主要驱动因素。我们引入了三元后缀分词(TST),这是一种确定性方案,将数字划分为三位数的组,并用显式量级标记注释每个组。关键是,该方案定义了整数部分的后缀和量级(千、百万、十亿等)之间的固定的一对一映射,以及用于小数深度的复制标记的并行系统(十分之一、千分之一、百万分之一等)。与依赖位置推断的方法不同,该方法提供了一致的梯度信号,应确保稳定的收敛。提出了两种实现变体:(1)基于词汇表的方法,该方法最多向现有词汇表添加10,000个固定token,覆盖33个数量级($10^{-15}$到$10^{18}$);(2)后缀标记方法,该方法使用一小组特殊token来动态表示量级。两种变体都保留了精确的数字,同时使量级关系在token级别上透明。该框架本质上是可扩展的,允许线性词汇表扩展以适应任意精度和范围。TST与架构无关,可以作为直接预处理步骤集成。实验验证推迟到未来的工作中。

🔬 方法详解

问题定义:现有的大型语言模型在进行数值推理时,由于标准子词分词方法对数字处理的不一致性,导致模型无法准确捕捉数字的位置信息和量级信息,从而影响了算术和科学推理的准确性。现有的方法依赖于模型自身学习数字的位置信息,缺乏明确的量级表示。

核心思路:论文的核心思路是将数字进行分段,并显式地标注每个分段的量级信息。具体来说,将数字分成三位一组的“三元组”,并为每个三元组添加一个后缀标记,该标记表示该三元组的量级(例如,千、百万、十亿等)。通过这种方式,模型可以直接从token中获取数字的量级信息,而无需进行复杂的推断。

技术框架:TST方案主要包含两个变体: 1. 基于词汇表的方法:预先定义一个包含数字三元组和量级标记的词汇表,将数字转换为词汇表中的token序列。 2. 后缀标记方法:使用一小组特殊的token来动态表示量级,在数字三元组后添加相应的量级标记。 整个流程可以作为预处理步骤,在将数据输入LLM之前进行处理。

关键创新:TST方案的关键创新在于其显式地表示数字的量级信息,而不是依赖模型自身学习。通过将数字分成三元组并添加量级标记,TST方案使得模型能够更容易地理解数字的含义,从而提高了数值推理的准确性。与现有方法相比,TST方案更加直接和可解释。

关键设计:TST方案的关键设计包括: 1. 三元组划分:将数字分成三位一组,符合人类的阅读习惯,也方便进行量级标注。 2. 量级标记:为每个三元组添加量级标记,显式地表示数字的量级信息。整数部分和分数部分使用不同的量级标记系统。 3. 词汇表大小:基于词汇表的方法需要控制词汇表的大小,以避免增加模型的复杂度。论文中提到,最多添加10,000个固定token,覆盖33个数量级。

📊 实验亮点

论文尚未进行实验验证,因此没有具体的性能数据。未来的工作将集中于验证TST方案在实际应用中的效果,并与其他数值推理方法进行比较,以评估其性能提升。

🎯 应用场景

该研究成果可应用于各种需要进行数值推理的场景,例如科学计算、金融分析、工程设计等。通过提高LLM的数值推理能力,可以提升这些领域中自动化系统的性能和可靠性。未来,该方法有望被集成到各种LLM应用中,例如智能助手、搜索引擎等,从而提升用户体验。

📄 摘要(原文)

Standard subword tokenization methods fragment numbers inconsistently, causing large language models (LLMs) to lose positional and decimal structure - a primary driver of errors in arithmetic and scientific reasoning. We introduce Triadic Suffix Tokenization (TST), a deterministic scheme that partitions digits into three-digit triads and annotates each triad with an explicit magnitude marker. Critically, the scheme defines a fixed, one-to-one mapping between suffixes and orders of magnitude for the integer part (thousands, millions, billions, etc.) and a parallel system of replicated markers for fractional depth (tenths, thousandths, millionths, etc.). Unlike approaches that rely on positional inference, this method provides a consistent gradient signal, which should ensure stable convergence. Two implementation variants are proposed: (1) a vocabulary-based approach that adds at most 10,000 fixed tokens to an existing vocabulary, covering 33 orders of magnitude ($10^{-15}$ to $10^{18}$); and (2) a suffix-marker approach that uses a small set of special tokens to denote magnitude dynamically. Both variants preserve exact digits while making order-of-magnitude relationships transparent at the token level. The framework is inherently scalable, allowing for linear vocabulary expansion to accommodate arbitrary precision and range. TST is architecture-agnostic and can be integrated as a drop-in preprocessing step. Experimental validation is deferred to future work.