From GPS Points to Travel Patterns: Flexible and Semantic Trajectory Generation with LLMs

📄 arXiv: 2605.30014v1 📥 PDF

作者: Silin Zhou, Chenhao Wang, Yuntao Wen, Shuo Shang, Lisi Chen, Panos Kalnis

分类: cs.AI

发布日期: 2026-05-28

备注: This paper is accepted by KDD2026 second round

🔗 代码/项目: GITHUB


💡 一句话要点

HTP:利用LLM分层生成城市轨迹,解决隐私限制下轨迹数据不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 轨迹生成 大型语言模型 变分自编码器 残差量化 出行模式 城市计算 隐私保护

📋 核心要点

  1. 现有轨迹生成方法难以显式捕捉出行模式,且只能生成固定长度和单一条件下的轨迹,限制了其应用。
  2. HTP通过分层生成出行模式,再利用LLM生成GPS点,从而更好地模拟真实出行模式并支持多种条件下的轨迹生成。
  3. 实验表明,HTP在生成质量上显著优于现有方法,平均提升29.78%,验证了其有效性。

📝 摘要(中文)

城市轨迹在城市动态建模和智慧城市应用中起着关键作用。然而,隐私问题限制了对大规模高质量轨迹数据集的访问。轨迹生成提供了一种有前景的替代方案,通过合成逼真的数据来降低隐私风险。然而,现有方法无法显式地捕获出行模式,并且只能在单一条件下生成固定长度的轨迹。为了解决这些限制,我们提出了HTP,它首先分层生成出行模式,然后使用大型语言模型(LLM)生成GPS点,而不是直接生成GPS点。我们首先设计了一个轨迹特定的残差量化变分自编码器(RQ-VAE),它以粗到细的方式将微观层面的GPS轨迹量化为紧凑的宏观层面的出行模式token。这些token捕获了丰富的片段空间不规则性,例如由交通状况引起的点密度变化。然后,我们使用出行模式token扩展LLM词汇表,以将轨迹表示与LLM输入对齐,并应用监督微调(SFT)使LLM与轨迹生成任务对齐,从而能够在各种条件下生成出行模式序列。在两个真实世界数据集上的大量实验表明,HTP在生成质量方面平均优于最强的基线29.78%。我们的代码可在https://github.com/slzhou-xy/HTP获得。

🔬 方法详解

问题定义:论文旨在解决由于隐私限制导致高质量城市轨迹数据难以获取的问题。现有轨迹生成方法的痛点在于无法有效捕捉真实的出行模式,生成的轨迹质量不高,且缺乏灵活性,难以适应不同条件下的轨迹生成需求。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的生成能力,并结合轨迹数据的特点,分层生成轨迹。首先将GPS轨迹量化为出行模式token,然后利用LLM生成这些token序列,最后将token序列解码为GPS轨迹。这种方法能够更好地捕捉出行模式,并支持多种条件下的轨迹生成。

技术框架:HTP的整体框架包括两个主要阶段:1) 轨迹量化阶段:使用轨迹特定的残差量化变分自编码器(RQ-VAE)将GPS轨迹量化为出行模式token。RQ-VAE以粗到细的方式进行量化,从而捕捉不同粒度的出行模式。2) 轨迹生成阶段:使用LLM生成出行模式token序列。首先扩展LLM的词汇表,将出行模式token加入其中,然后使用监督微调(SFT)使LLM适应轨迹生成任务。

关键创新:HTP最重要的技术创新点在于其分层生成策略。与直接生成GPS点相比,HTP首先生成出行模式token,然后再生成GPS点。这种方法能够更好地捕捉出行模式,并提高生成轨迹的质量和多样性。此外,使用RQ-VAE进行轨迹量化也是一个创新点,它能够有效地将GPS轨迹压缩为紧凑的token表示。

关键设计:RQ-VAE的设计包括残差量化和变分自编码器两个部分。残差量化能够逐步细化量化结果,从而捕捉不同粒度的出行模式。变分自编码器能够学习轨迹数据的潜在分布,从而提高生成轨迹的质量。LLM使用监督微调(SFT)进行训练,损失函数为交叉熵损失函数。实验中,作者使用了两个真实世界的轨迹数据集,并对HTP的参数进行了精细调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HTP在两个真实世界数据集上进行了评估,实验结果表明,HTP在生成质量方面显著优于最强的基线方法,平均提升29.78%。这表明HTP能够有效地捕捉出行模式,并生成高质量的轨迹数据。作者还进行了消融实验,验证了RQ-VAE和LLM的有效性。

🎯 应用场景

HTP可应用于城市规划、交通管理、位置服务等领域。通过生成逼真的轨迹数据,可以缓解隐私问题带来的数据获取难题,支持城市动态建模、交通流量预测、个性化路线推荐等应用。未来,该方法还可扩展到其他类型的时空数据生成任务中。

📄 摘要(原文)

Urban trajectories play a crucial role in modeling urban dynamics and supporting various smart city applications. However, privacy concerns restrict access to large-scale and high-quality trajectory datasets. Trajectory generation provides a promising alternative by synthesizing realistic data to mitigate privacy risks. However, existing methods fail to explicitly capture travel patterns and can only generate fixed-length trajectories under a single condition. To address these limitations, we propose \textbf{HTP}, which \textbf{H}ierarchically generates \textbf{T}ravel patterns first and then generates GPS \textbf{P}oints by using large language models (LLMs), rather than directly generating GPS points. We first design a trajectory-specific residual quantization variational autoencoder (RQ-VAE) that quantizes micro-level GPS trajectories into compact, macro-level travel pattern tokens in a coarse-to-fine manner. These tokens capture rich segment spatial irregularities, such as point density variations caused by traffic conditions. Then, we extend the LLM vocabulary with travel pattern tokens to align trajectory representations with the LLM input, and apply supervised fine-tuning (SFT) to align the LLM with the trajectory generation task, enabling generation of travel pattern sequences under various conditions. Extensive experiments on two real-world datasets show that HTP outperforms the strongest baseline by an average of 29.78\% in terms of generation quality. Our code is available at https://github.com/slzhou-xy/HTP.