Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

📄 arXiv: 2507.07955v2 📥 PDF

作者: Sukjun Hwang, Brandon Wang, Albert Gu

分类: cs.LG

发布日期: 2025-07-10 (更新: 2025-07-15)


💡 一句话要点

提出动态分块的端到端层级序列建模方法H-Net,无需tokenization即可提升语言模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 端到端学习 层级序列建模 动态分块 语言模型 Transformer

📋 核心要点

  1. 现有语言模型依赖tokenization等预处理,阻碍了端到端学习,限制了模型性能。
  2. 提出H-Net,通过动态分块机制自动学习内容相关的分段策略,实现端到端建模。
  3. 实验表明,H-Net在多种语言和模态上优于基于token的Transformer,尤其在数据效率方面提升显著。

📝 摘要(中文)

近年来,语言模型(LM)的重大进展主要归功于从为特定任务设计的专用模型转向基于强大架构(如Transformer)的通用模型,这些模型可以从原始数据中学习一切。尽管存在这种趋势,但诸如tokenization之类的预处理步骤仍然是真正的端到端基础模型的障碍。我们引入了一系列新技术,这些技术支持一种动态分块机制,该机制可以自动学习内容和上下文相关的分段策略,并与模型的其余部分联合学习。将其整合到显式分层网络(H-Net)中,可以用单个完全端到端学习的模型替换(隐式分层)tokenization-LM-detokenization流水线。在计算和数据匹配的情况下,在字节级别上运行的具有一个层级阶段的H-Net优于在BPE token上运行的强大的Transformer语言模型。迭代层级到多个阶段进一步提高了其性能,通过对多个抽象级别进行建模,展示了数据更好的扩展性,并与两倍大小的基于token的Transformer相匹配。在英语上预训练的H-Net显示出显着提高的字符级鲁棒性,并且在没有任何启发式方法或显式监督的情况下,定性地学习有意义的数据相关分块策略。最后,H-Net相对于token化流水线的改进在token化启发式方法较弱的语言和模态(如中文和代码)或DNA序列中进一步增加(数据效率比基线提高了近4倍),显示了真正的端到端模型的潜力,这些模型可以从原始数据中更好地学习和扩展。

🔬 方法详解

问题定义:现有语言模型通常依赖于tokenization等预处理步骤,将原始输入(如文本、代码、DNA序列)转换为token序列。这些预处理步骤引入了人为的先验知识,限制了模型从原始数据中学习的能力,并且可能成为性能瓶颈,尤其是在tokenization启发式方法较弱的语言或模态中。

核心思路:论文的核心思路是设计一种端到端的层级序列模型H-Net,该模型能够直接从原始数据(如字节序列)中学习,无需tokenization。H-Net通过动态分块机制,自动学习内容和上下文相关的分段策略,将输入序列分割成不同长度的块,并在层级结构中对这些块进行建模。这种设计允许模型在不同抽象级别上理解输入,从而提高性能和数据效率。

技术框架:H-Net的整体架构是一个层级网络,包含多个阶段。每个阶段包括一个动态分块模块和一个序列建模模块。动态分块模块负责将输入序列分割成不同长度的块,序列建模模块则对这些块进行建模,并生成更高层次的表示。多个阶段的堆叠允许模型学习不同抽象级别的表示,从而实现端到端的层级序列建模。

关键创新:H-Net的关键创新在于动态分块机制,它能够自动学习内容和上下文相关的分段策略,而无需人为的先验知识。与传统的tokenization方法相比,动态分块机制更加灵活和自适应,能够更好地适应不同类型的数据。此外,H-Net的层级结构允许模型在不同抽象级别上理解输入,从而提高性能和数据效率。

关键设计:动态分块模块使用一个可学习的神经网络来预测每个位置的分块概率。序列建模模块可以使用任何类型的序列模型,如Transformer或RNN。损失函数包括一个语言模型损失和一个分块正则化项,用于鼓励模型学习有意义的分块策略。具体的网络结构和参数设置根据不同的实验设置进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,H-Net在多种语言和模态上优于基于token的Transformer。例如,在英语语言建模任务中,与计算和数据匹配的Transformer相比,H-Net性能更优。在中文、代码和DNA序列等tokenization启发式方法较弱的模态中,H-Net的数据效率比基线提高了近4倍。此外,H-Net还表现出更强的字符级鲁棒性,并且能够学习有意义的数据相关分块策略。

🎯 应用场景

H-Net具有广泛的应用前景,可以应用于各种序列建模任务,如自然语言处理、代码生成、DNA序列分析等。尤其是在tokenization启发式方法较弱的语言或模态中,H-Net的优势更加明显。该研究为构建真正的端到端基础模型提供了新的思路,有望推动人工智能领域的发展。

📄 摘要(原文)

Major progress on language models (LMs) in recent years has largely resulted from moving away from specialized models designed for specific tasks, to general models based on powerful architectures (e.g. the Transformer) that learn everything from raw data. Despite this trend, pre-processing steps such as tokenization remain a barrier to true end-to-end foundation models. We introduce a collection of new techniques that enable a dynamic chunking mechanism which automatically learns content- and context- dependent segmentation strategies learned jointly with the rest of the model. Incorporating this into an explicit hierarchical network (H-Net) allows replacing the (implicitly hierarchical) tokenization-LM-detokenization pipeline with a single model learned fully end-to-end. When compute- and data- matched, an H-Net with one stage of hierarchy operating at the byte level outperforms a strong Transformer language model operating over BPE tokens. Iterating the hierarchy to multiple stages further increases its performance by modeling multiple levels of abstraction, demonstrating significantly better scaling with data and matching the token-based Transformer of twice its size. H-Nets pretrained on English show significantly increased character-level robustness, and qualitatively learn meaningful data-dependent chunking strategies without any heuristics or explicit supervision. Finally, the H-Net's improvement over tokenized pipelines is further increased in languages and modalities with weaker tokenization heuristics, such as Chinese and code, or DNA sequences (nearly 4x improvement in data efficiency over baselines), showing the potential of true end-to-end models that learn and scale better from unprocessed data.