Efficient Temporal Tokenization for Mobility Prediction with Large Language Models

📄 arXiv: 2507.14017v1 📥 PDF

作者: Haoyu He, Haozheng Luo, Yan Chen, Qi R. Wang

分类: cs.CL, cs.LG

发布日期: 2025-07-18

期刊: Proceedings of the 3rd Workshop on Efficient Systems for Foundation Models (ES-FoMo III) at ICML 2025


💡 一句话要点

RHYTHM:利用分层时间Token化和LLM进行高效的出行预测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 出行预测 大型语言模型 时间序列分析 分层注意力 轨迹建模

📋 核心要点

  1. 现有出行预测方法难以有效建模长时序轨迹中的复杂时空依赖关系,计算成本高昂。
  2. RHYTHM通过分层时间Token化将轨迹转换为离散Token序列,并利用LLM进行推理,降低计算复杂度。
  3. 实验表明,RHYTHM在准确率和训练效率上均优于现有方法,尤其在周末出行预测方面提升显著。

📝 摘要(中文)

本文提出RHYTHM(基于分层时间Token化的人类出行推理),该框架利用大型语言模型(LLM)作为时空预测器和轨迹推理器。RHYTHM将轨迹分割成每日片段,并将其编码为具有分层注意力的离散Token,从而捕获每日和每周的依赖关系,同时显著减少序列长度。Token表示通过冻结的LLM进行预计算的prompt嵌入来丰富,增强了模型捕获相互依赖关系的能力,而无需大量的计算开销。通过冻结LLM主干,RHYTHM实现了显著的计算效率。在三个真实世界数据集上的评估表明,与最先进的方法相比,准确率提高了2.4%,周末提高了5.0%,训练时间减少了24.6%。

🔬 方法详解

问题定义:现有的出行预测方法通常难以捕捉人类移动轨迹中复杂的时空依赖关系,尤其是在长时序数据上。此外,直接使用大型模型进行端到端训练会带来巨大的计算开销,限制了其在实际应用中的可行性。

核心思路:RHYTHM的核心思路是将连续的轨迹数据离散化为Token序列,并利用预训练的大型语言模型(LLM)进行推理。通过分层的时间Token化,模型能够有效地捕捉每日和每周的周期性模式,同时显著减少序列长度,降低计算复杂度。

技术框架:RHYTHM框架主要包含以下几个阶段:1) 轨迹分割:将轨迹数据分割成每日的片段。2) 时间Token化:将每日片段编码为离散的Token序列,采用分层注意力机制,捕捉每日和每周的依赖关系。3) Prompt嵌入:利用预训练的LLM,通过prompt嵌入来丰富Token表示,增强模型对时空关系的理解。4) LLM推理:使用冻结的LLM主干进行推理,预测未来的出行轨迹。

关键创新:RHYTHM的关键创新在于其分层时间Token化方法和冻结LLM主干的设计。分层Token化能够有效地压缩序列长度,降低计算复杂度,同时保留重要的时空信息。冻结LLM主干则避免了对整个LLM进行微调,显著提高了训练效率。

关键设计:RHYTHM使用分层注意力机制来捕捉每日和每周的依赖关系。具体来说,模型首先计算每日Token之间的注意力权重,然后计算每周Token之间的注意力权重。此外,模型使用预计算的prompt嵌入来初始化Token表示,从而利用LLM的先验知识。LLM主干被冻结,只训练Token化模块和prompt嵌入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RHYTHM在三个真实世界数据集上进行了评估,结果表明,与最先进的方法相比,RHYTHM的准确率提高了2.4%,周末出行预测准确率提高了5.0%,训练时间减少了24.6%。这些结果表明,RHYTHM在准确性和效率方面均具有显著优势。

🎯 应用场景

RHYTHM可应用于智能交通、城市规划、位置推荐等领域。通过准确预测人群出行模式,可以优化交通流量、改善公共服务、提升用户体验。该研究为利用大型语言模型解决时空预测问题提供了新的思路,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

We introduce RHYTHM (Reasoning with Hierarchical Temporal Tokenization for Human Mobility), a framework that leverages large language models (LLMs) as spatio-temporal predictors and trajectory reasoners. RHYTHM partitions trajectories into daily segments encoded as discrete tokens with hierarchical attention, capturing both daily and weekly dependencies while substantially reducing the sequence length. Token representations are enriched with pre-computed prompt embeddings via a frozen LLM, enhancing the model's ability to capture interdependencies without extensive computational overhead. By freezing the LLM backbone, RHYTHM achieves significant computational efficiency. Evaluation on three real-world datasets demonstrates a 2.4% improvement in accuracy, 5.0% increase on weekends, and 24.6% reduction in training time compared to state-of-the-art methods.