Traj-Transformer: Diffusion Models with Transformer for GPS Trajectory Generation

📄 arXiv: 2510.06291v1 📥 PDF

作者: Zhiyang Zhang, Ningcong Chen, Xin Zhang, Yanhua Li, Shen Su, Hui Lu, Jun Luo

分类: cs.LG, cs.AI

发布日期: 2025-10-07


💡 一句话要点

提出Traj-Transformer,利用Transformer和扩散模型生成高质量GPS轨迹

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: GPS轨迹生成 扩散模型 Transformer 时空数据挖掘 轨迹预测

📋 核心要点

  1. 现有基于卷积的扩散模型在GPS轨迹生成中存在偏差和细节丢失问题,源于模型容量的限制。
  2. Traj-Transformer采用Transformer架构进行条件信息嵌入和噪声预测,以提升轨迹生成的质量。
  3. 实验结果表明,Traj-Transformer显著提高了轨迹生成质量,并有效缓解了现有方法的偏差问题。

📝 摘要(中文)

GPS设备的广泛应用推动了时空数据挖掘的进步,使得机器学习模型能够模拟人类决策并生成真实的轨迹,从而解决数据收集成本和隐私问题。最近的研究表明,扩散模型在高质量轨迹生成方面具有潜力。然而,大多数现有方法依赖于基于卷积的架构(例如UNet)来预测扩散过程中的噪声,这通常会导致显著的偏差和细粒度的街道级别细节的丢失,原因是模型容量有限。在本文中,我们提出了轨迹Transformer,这是一种新颖的模型,它采用Transformer骨干网络进行条件信息嵌入和噪声预测。我们探索了两种GPS坐标嵌入策略,即位置嵌入和经纬度嵌入,并分析了不同尺度下的模型性能。在两个真实世界数据集上的实验表明,轨迹Transformer显著提高了生成质量,并有效缓解了先前方法中观察到的偏差问题。

🔬 方法详解

问题定义:论文旨在解决GPS轨迹生成中,现有基于卷积神经网络的扩散模型存在的偏差大、细节丢失的问题。现有方法如基于UNet的扩散模型,由于模型容量的限制,难以捕捉轨迹中的细粒度信息,导致生成的轨迹与真实轨迹存在较大偏差,无法满足高质量轨迹生成的需求。

核心思路:论文的核心思路是利用Transformer架构强大的建模能力,替代卷积神经网络,从而更好地捕捉轨迹中的时空依赖关系,提升模型容量,减少生成轨迹的偏差,并保留更多的街道级别细节。Transformer擅长处理序列数据,能够更好地学习轨迹中的长期依赖关系。

技术框架:Traj-Transformer的整体框架是一个扩散模型,包含前向扩散过程和反向生成过程。在前向扩散过程中,逐步向轨迹数据添加噪声,直到轨迹变为纯噪声。在反向生成过程中,从纯噪声开始,逐步去除噪声,最终生成轨迹。Traj-Transformer使用Transformer作为噪声预测器,用于预测每一步需要去除的噪声。此外,论文还探索了两种GPS坐标嵌入策略:位置嵌入和经纬度嵌入。

关键创新:Traj-Transformer的关键创新在于使用Transformer架构替代传统的卷积神经网络作为扩散模型的噪声预测器。这种替换使得模型能够更好地捕捉轨迹中的时空依赖关系,提升模型容量,从而生成更高质量的轨迹。与现有方法相比,Traj-Transformer能够显著减少生成轨迹的偏差,并保留更多的街道级别细节。

关键设计:论文探索了两种GPS坐标嵌入策略:位置嵌入和经纬度嵌入。位置嵌入将GPS坐标转换为可学习的向量表示,而经纬度嵌入则直接使用经纬度值作为输入。此外,论文还分析了不同尺度下的模型性能,以确定最佳的模型配置。损失函数采用标准的扩散模型损失函数,即预测噪声与真实噪声之间的均方误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Traj-Transformer在两个真实世界数据集上显著提高了轨迹生成质量,有效缓解了现有方法的偏差问题。具体性能提升数据未知,但论文强调了在生成质量上的显著提升,以及对现有方法偏差问题的有效缓解。通过对比实验,证明了Traj-Transformer优于基于卷积神经网络的扩散模型。

🎯 应用场景

该研究成果可应用于轨迹预测、交通流量分析、城市规划、位置服务等领域。高质量的轨迹生成可以用于模拟交通流量,优化交通路线,预测用户行为,以及为位置服务提供更准确的数据支持。此外,该方法还可以用于生成合成轨迹数据,以解决数据隐私问题,并用于训练其他机器学习模型。

📄 摘要(原文)

The widespread use of GPS devices has driven advances in spatiotemporal data mining, enabling machine learning models to simulate human decision making and generate realistic trajectories, addressing both data collection costs and privacy concerns. Recent studies have shown the promise of diffusion models for high-quality trajectory generation. However, most existing methods rely on convolution based architectures (e.g. UNet) to predict noise during the diffusion process, which often results in notable deviations and the loss of fine-grained street-level details due to limited model capacity. In this paper, we propose Trajectory Transformer, a novel model that employs a transformer backbone for both conditional information embedding and noise prediction. We explore two GPS coordinate embedding strategies, location embedding and longitude-latitude embedding, and analyze model performance at different scales. Experiments on two real-world datasets demonstrate that Trajectory Transformer significantly enhances generation quality and effectively alleviates the deviation issues observed in prior approaches.