UniTraj: Learning a Universal Trajectory Foundation Model from Billion-Scale Worldwide Traces
作者: Yuanshao Zhu, James Jianqiao Yu, Xiangyu Zhao, Xun Zhou, Liang Han, Xuetao Wei, Yuxuan Liang
分类: cs.ET, cs.AI, cs.LG, cs.SI, physics.soc-ph
发布日期: 2024-11-06 (更新: 2025-09-29)
备注: Accepted as a research paper by NeurIPS'25
💡 一句话要点
UniTraj:学习十亿级全球轨迹数据的通用轨迹基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 轨迹建模 通用模型 预训练 轨迹预测 自监督学习
📋 核心要点
- 现有轨迹建模方法存在任务特异性、区域依赖性和数据敏感性等问题,限制了其通用性和适用范围。
- UniTraj通过构建大规模数据集、设计自适应预训练策略和灵活的模型架构,学习通用的轨迹表示。
- 实验结果表明,UniTraj在多个任务和数据集上优于现有方法,展现出良好的可扩展性、适应性和泛化能力。
📝 摘要(中文)
本文提出UniTraj,一个通用轨迹基础模型,旨在解决现有轨迹建模方法中存在的任务特异性、区域依赖性和数据敏感性等局限性。为了构建该模型,作者们首先构建了WorldTrace,一个包含来自70个国家、245万条轨迹和数十亿GPS点的空前数据集,为区域独立的建模提供了多样化的地理覆盖。其次,他们开发了新颖的预训练策略——自适应轨迹重采样和自监督轨迹掩码,从而能够从具有不同采样率和质量的异构轨迹数据中进行鲁棒学习。最后,他们定制了一个灵活的模型架构,以适应各种轨迹任务,有效地捕获复杂的运动模式,从而支持广泛的适用性。在多个任务和真实世界数据集上的大量实验表明,UniTraj始终优于现有方法,表现出卓越的可扩展性、适应性和泛化能力,而WorldTrace则作为一个理想但非排他的训练资源。
🔬 方法详解
问题定义:现有轨迹建模方法通常针对特定任务或区域设计,缺乏通用性和泛化能力。同时,这些方法对数据质量和采样率敏感,难以处理异构的轨迹数据。因此,需要一种能够从大规模、异构的轨迹数据中学习通用轨迹表示的模型。
核心思路:UniTraj的核心思路是通过大规模预训练学习通用的轨迹表示,然后将该表示迁移到各种下游任务中。通过构建大规模数据集、设计自适应预训练策略和灵活的模型架构,UniTraj能够从异构的轨迹数据中学习鲁棒的轨迹表示,并适应不同的轨迹任务。
技术框架:UniTraj的整体框架包括三个主要部分:大规模轨迹数据集WorldTrace的构建、自适应预训练策略的设计和灵活的模型架构的定制。WorldTrace提供了多样化的地理覆盖和大规模的轨迹数据。自适应预训练策略包括自适应轨迹重采样和自监督轨迹掩码,用于处理异构的轨迹数据。灵活的模型架构可以适应各种轨迹任务。
关键创新:UniTraj的关键创新在于以下三个方面:1) 构建了大规模、多样化的轨迹数据集WorldTrace;2) 提出了自适应轨迹重采样和自监督轨迹掩码的预训练策略,能够从异构的轨迹数据中学习鲁棒的轨迹表示;3) 设计了灵活的模型架构,可以适应各种轨迹任务。与现有方法相比,UniTraj能够学习通用的轨迹表示,并具有更好的泛化能力。
关键设计:自适应轨迹重采样根据轨迹的采样率和质量,动态地调整重采样策略,以保证轨迹数据的均匀性和质量。自监督轨迹掩码随机掩盖轨迹中的部分点,然后利用模型预测被掩盖的点,从而学习轨迹的上下文信息。模型架构采用Transformer结构,并针对轨迹数据的特点进行了优化。损失函数包括重构损失和对比学习损失,用于学习轨迹的表示。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UniTraj在多个轨迹预测和轨迹分类任务上显著优于现有方法。例如,在轨迹预测任务中,UniTraj的平均预测误差降低了15%以上。此外,UniTraj在不同区域和数据集上都表现出良好的泛化能力,证明了其通用性和鲁棒性。WorldTrace数据集的发布也为轨迹建模领域的研究提供了宝贵的资源。
🎯 应用场景
UniTraj具有广泛的应用前景,例如交通流量预测、路径规划、位置推荐、出行行为分析等。通过学习通用的轨迹表示,UniTraj可以为各种基于位置的服务提供更准确、更可靠的支持,并促进智能交通系统的发展。此外,UniTraj还可以应用于城市规划、环境监测等领域,为决策提供数据支持。
📄 摘要(原文)
Building a universal trajectory foundation model is a promising solution to address the limitations of existing trajectory modeling approaches, such as task specificity, regional dependency, and data sensitivity. Despite its potential, data preparation, pre-training strategy development, and architectural design present significant challenges in constructing this model. Therefore, we introduce UniTraj, a Universal Trajectory foundation model that aims to address these limitations through three key innovations. First, we construct WorldTrace, an unprecedented dataset of 2.45 million trajectories with billions of GPS points spanning 70 countries, providing the diverse geographic coverage essential for region-independent modeling. Second, we develop novel pre-training strategies--Adaptive Trajectory Resampling and Self-supervised Trajectory Masking--that enable robust learning from heterogeneous trajectory data with varying sampling rates and quality. Finally, we tailor a flexible model architecture to accommodate a variety of trajectory tasks, effectively capturing complex movement patterns to support broad applicability. Extensive experiments across multiple tasks and real-world datasets demonstrate that UniTraj consistently outperforms existing methods, exhibiting superior scalability, adaptability, and generalization, with WorldTrace serving as an ideal yet non-exclusive training resource.