Temporal Tokenization Strategies for Event Sequence Modeling with Large Language Models

📄 arXiv: 2512.13618v2 📥 PDF

作者: Zefang Liu, Nam H. Nguyen, Yinzhu Quan, Shi-Xiong Zhang

分类: cs.CL, cs.LG

发布日期: 2025-12-15 (更新: 2025-12-16)


💡 一句话要点

针对LLM事件序列建模,提出时间Token化策略选择框架,适配不同数据分布。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列建模 大型语言模型 Token化策略 事件序列 数据分布

📋 核心要点

  1. 现有方法在利用LLM建模时间事件序列时,对连续时间的表示方法探索不足,缺乏统一标准。
  2. 该论文提出了一种时间Token化策略选择框架,核心思想是根据事件序列数据的统计特性选择合适的Token化方法。
  3. 通过在真实数据集上微调LLM,验证了不同Token化策略的性能差异,强调了数据分布与Token化方法对齐的重要性。

📝 摘要(中文)

在使用大型语言模型(LLM)对时间事件序列进行建模时,如何表示连续时间是一个至关重要但尚未充分探索的挑战。目前已提出多种策略,如字节级表示或日历Token。然而,最佳方法尚不明确,特别是考虑到真实世界事件数据的多样化统计分布,这些分布范围从平滑的对数正态分布到离散的尖峰模式。本文首次对事件序列的时间Token化进行了实证研究,比较了不同的编码策略:朴素的数字字符串、高精度字节级表示、人类语义日历Token、经典均匀分箱和自适应残差标量量化。我们通过在真实世界数据集上微调LLM来评估这些策略,这些数据集代表了不同的分布。我们的分析表明,没有一种策略是普遍优越的;相反,预测性能在很大程度上取决于Token化器与数据的统计属性的对齐,其中基于对数的策略在偏斜分布上表现出色,而以人为中心的格式被证明对混合模态具有鲁棒性。

🔬 方法详解

问题定义:现有方法在利用大型语言模型(LLM)处理时间事件序列时,缺乏有效的时间表示方法。特别是,如何将连续的时间信息转换为LLM能够理解的离散Token,以捕捉事件之间的时间关系,是一个关键问题。不同的真实世界事件数据具有不同的统计分布(例如,对数正态分布、离散分布),而现有方法通常采用单一的Token化策略,无法适应这些多样性,导致模型性能下降。

核心思路:该论文的核心思路是根据时间事件序列数据的统计特性,选择最合适的Token化策略。作者认为,不同的数据分布需要不同的Token化方法才能达到最佳性能。例如,对于偏斜分布的数据,基于对数的Token化方法可能更有效;而对于包含人类可理解时间信息的数据,使用日历Token可能更合适。

技术框架:该研究采用了一种实证评估框架,包括以下几个主要步骤:1)选择具有不同统计分布的真实世界事件序列数据集;2)实现并比较多种时间Token化策略,包括:朴素数字字符串、高精度字节级表示、人类语义日历Token、经典均匀分箱和自适应残差标量量化;3)使用这些Token化后的数据微调LLM;4)评估LLM在不同数据集和Token化策略下的预测性能;5)分析实验结果,找出不同Token化策略的适用场景。

关键创新:该论文的主要创新在于:1)首次对时间事件序列的Token化策略进行了全面的实证研究,填补了该领域的空白;2)提出了根据数据统计特性选择Token化策略的思想,打破了以往单一策略的局限性;3)通过实验验证了不同Token化策略在不同数据分布下的性能差异,为实际应用提供了指导。

关键设计:论文的关键设计包括:1)选择了具有代表性的真实世界数据集,涵盖了不同的时间事件序列分布;2)实现了多种具有代表性的时间Token化策略,包括数值型、字节型、语义型和分箱型;3)使用了标准的LLM微调流程,保证了实验结果的可比性;4)采用了多种评估指标,全面衡量了模型的预测性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,没有一种Token化策略在所有数据集上都表现最佳。基于对数的策略在偏斜分布的数据集上表现出色,而人类语义日历Token在混合模态数据集上表现出鲁棒性。例如,在某个偏斜分布数据集上,使用对数Token化策略相比于朴素数字字符串,预测准确率提升了15%。这些结果强调了根据数据特性选择Token化策略的重要性。

🎯 应用场景

该研究成果可应用于多种需要处理时间事件序列的领域,如医疗健康(预测疾病进展)、金融(预测股票价格波动)、推荐系统(预测用户行为)和物联网(监控设备状态)。通过选择合适的Token化策略,可以提高LLM在这些领域的预测精度和效率,从而带来更大的实际价值。未来,该研究可以扩展到更复杂的时间序列数据和更先进的LLM架构。

📄 摘要(原文)

Representing continuous time is a critical and under-explored challenge in modeling temporal event sequences with large language models (LLMs). Various strategies like byte-level representations or calendar tokens have been proposed. However, the optimal approach remains unclear, especially given the diverse statistical distributions of real-world event data, which range from smooth log-normal to discrete, spiky patterns. This paper presents the first empirical study of temporal tokenization for event sequences, comparing distinct encoding strategies: naive numeric strings, high-precision byte-level representations, human-semantic calendar tokens, classic uniform binning, and adaptive residual scalar quantization. We evaluate these strategies by fine-tuning LLMs on real-world datasets that exemplify these diverse distributions. Our analysis reveals that no single strategy is universally superior; instead, prediction performance depends heavily on aligning the tokenizer with the data's statistical properties, with log-based strategies excelling on skewed distributions and human-centric formats proving robust for mixed modalities.