Adaptive Targeted Dynamic Chunking for Tokenization-Free Hierarchical Model
作者: Thang Dang, Akira Nakagawa, Kenichi Kobayashi, Koichi Shirahata
分类: cs.CL
发布日期: 2026-05-28
💡 一句话要点
提出自适应目标动态分块(ATDC)方法,优化无Token化层级模型的压缩比。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无Token化模型 动态分块 压缩比优化 课程学习 层级模型
📋 核心要点
- 传统LLM的Token化预处理存在词汇表设计复杂、OOV问题和语言限制等挑战。
- ATDC通过课程学习自适应调整压缩比,从低到高逐步优化,稳定训练过程。
- 实验表明,ATDC在BPB性能上与传统方法竞争,并在下游任务中表现更优。
📝 摘要(中文)
无Token化层级模型正逐渐成为传统大型语言模型(LLMs)的有希望的替代方案,解决了词汇表设计复杂性、未登录词(OOV)错误和特定于语言的约束等固有的预处理问题。然而,这些字节级方法的一个重大挑战是压缩比的优化,这是决定模型通过块处理字节数据的性能的关键因素。本文提出了一种新颖的字节压缩控制机制——自适应目标动态分块(ATDC),旨在增强层级架构中动态分块的有效性。我们的方法利用课程学习来逐步调整训练期间的压缩比,从低压缩过渡到高压缩,以稳定学习过程。我们提供了一个分析,建立了目标压缩比和每内部块字节数(BPIC)之间的关系,从而可以在整个训练阶段跟踪块大小的演变。在FineWeb-Edu 100B数据集上进行的评估表明,配备ATDC的层级模型实现了与在字节和Token级别运行的传统基线相比具有竞争力的每字节位数(BPB)性能。此外,与使用固定压缩比的模型相比,所提出的方法在各种下游任务中表现出更稳定的训练动态和卓越的最终性能,同时保持了字节级处理固有的鲁棒性和灵活性。
🔬 方法详解
问题定义:论文旨在解决无Token化层级模型中压缩比优化的问题。现有的字节级方法在处理字节数据时,压缩比直接影响模型性能,但如何有效控制和优化压缩比是一个挑战。固定压缩比可能导致训练不稳定或性能不佳。
核心思路:论文的核心思路是使用自适应目标动态分块(ATDC)机制,通过课程学习的方式,在训练过程中逐步调整压缩比。从低压缩比开始,逐渐过渡到高压缩比,从而稳定学习过程,并最终获得更好的模型性能。这种动态调整允许模型更好地适应数据,并避免因一开始就使用高压缩比而导致的训练困难。
技术框架:ATDC方法主要包含以下几个阶段:1) 初始化:设置初始压缩比;2) 动态分块:根据当前压缩比将字节数据分成块;3) 模型训练:使用分块后的数据训练层级模型;4) 压缩比调整:根据课程学习策略,逐步提高压缩比;5) 迭代:重复2-4步,直到达到目标压缩比或训练结束。整个框架旨在通过动态调整压缩比来优化模型性能。
关键创新:ATDC的关键创新在于其自适应调整压缩比的能力。与传统的固定压缩比方法不同,ATDC能够根据训练的进展情况动态地调整压缩比,从而更好地适应数据并稳定训练过程。此外,论文还分析了目标压缩比与每内部块字节数(BPIC)之间的关系,为压缩比的调整提供了理论依据。
关键设计:ATDC的关键设计包括:1) 课程学习策略:使用课程学习来逐步提高压缩比,避免一开始就使用高压缩比导致的训练困难;2) 目标压缩比与BPIC的关系分析:通过分析目标压缩比与BPIC之间的关系,可以更好地控制块大小的演变;3) 损失函数:使用标准的语言建模损失函数,例如交叉熵损失,来训练模型;4) 网络结构:可以使用各种层级模型结构,例如Transformer或RNN。
🖼️ 关键图片
📊 实验亮点
实验结果表明,配备ATDC的层级模型在FineWeb-Edu 100B数据集上实现了与字节和Token级别传统基线相比具有竞争力的BPB性能。更重要的是,与使用固定压缩比的模型相比,ATDC在各种下游任务中表现出更稳定的训练动态和卓越的最终性能,证明了其有效性。
🎯 应用场景
该研究成果可应用于各种需要处理字节数据的自然语言处理任务,例如机器翻译、文本生成和情感分析。尤其适用于资源受限的场景,例如移动设备或嵌入式系统,因为无Token化方法可以减少词汇表大小和内存占用。此外,该方法还可以提高模型的鲁棒性和泛化能力,使其能够更好地处理各种语言和数据。
📄 摘要(原文)
Tokenization-free hierarchical models are emerging as a promising alternative to traditional Large Language Models (LLMs), addressing inherent preprocessing issues such as vocabulary design complexity, out-of-vocabulary (OOV) errors, and language-specific constraints. However, a significant challenge in these byte-level methods is the optimization of the compression ratio, a critical factor that dictates model performance for processing bytes data via chunks. In this paper, we propose Adaptive Targeted Dynamic Chunking (ATDC), a novel byte-compression control mechanism designed to enhance the effectiveness of dynamic chunking within hierarchical architectures. Our approach utilizes curriculum learning to progressively adjust the compression ratio during training, transitioning from low to high compression to stabilize the learning process. We provide an analysis establishing the relationship between the target compression ratio and Bytes-Per-Innermost-Chunk (BPIC), allowing for tracking of chunk-size evolution throughout the training phase. Evaluations conducted on the FineWeb-Edu 100B dataset demonstrate that hierarchical models equipped with ATDC achieve competitive Bits-Per-Byte (BPB) performance compared to conventional baselines operating at both byte and token levels. Furthermore, the proposed method exhibits more stable training dynamics and superior final performance across diverse downstream tasks compared to models using fixed compression ratios, while maintaining the inherent robustness and flexibility of byte-level processing.