InsTraj: Instructing Diffusion Models with Travel Intentions to Generate Real-world Trajectories

📄 arXiv: 2604.04106 📥 PDF

作者: Yuanshao Zhu, Yuxuan Liang, Xiangyu Zhao, Liang Han, Xinwei Fang, Xuetao Wei, James Jianqiao Yu

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出InsTraj以解决GPS轨迹生成的语义理解与约束问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GPS轨迹生成 自然语言处理 多模态学习 扩散模型 城市规划 出行意图 语义理解

📋 核心要点

  1. 现有方法缺乏深层语义理解,难以准确解读复杂的用户出行意图,同时在处理约束时难以保持轨迹的真实多样性。
  2. InsTraj通过大语言模型解析自然语言中的出行意图,创建语义蓝图,并利用多模态轨迹扩散变换器生成高保真轨迹。
  3. 实验结果显示,InsTraj在真实数据集上显著优于现有方法,生成的轨迹在真实性、多样性和语义忠实性方面表现突出。

📝 摘要(中文)

生成真实且可控的GPS轨迹是城市规划、出行模拟和隐私保护数据共享等应用中的基本任务。然而,现有方法面临双重挑战:缺乏深层语义理解以解读复杂的用户出行意图,同时在保持人类行为固有的真实多样性时难以处理复杂约束。为此,我们提出了InsTraj,一个新颖的框架,通过自然语言描述指导扩散模型生成高保真轨迹。具体而言,InsTraj首先利用强大的大语言模型解读自然语言中的非结构化出行意图,从而创建丰富的语义蓝图,弥合意图与轨迹之间的表示差距。随后,我们提出了一种多模态轨迹扩散变换器,能够整合语义指导,生成高保真且忠实于指令的轨迹,符合细粒度用户意图。综合实验表明,InsTraj在生成真实、多样且语义忠实于输入指令的轨迹方面显著优于现有最先进的方法。

🔬 方法详解

问题定义:本论文旨在解决生成真实且可控的GPS轨迹的挑战,现有方法在理解用户出行意图和处理复杂约束方面存在不足,导致生成的轨迹缺乏多样性和真实性。

核心思路:InsTraj的核心思路是利用大语言模型解读自然语言中的出行意图,形成丰富的语义蓝图,并通过多模态轨迹扩散变换器生成符合用户意图的高保真轨迹。

技术框架:InsTraj的整体架构包括两个主要模块:首先是意图解析模块,利用大语言模型将自然语言转化为语义蓝图;其次是轨迹生成模块,通过多模态轨迹扩散变换器生成高保真轨迹。

关键创新:InsTraj的关键创新在于将大语言模型与轨迹生成相结合,形成了一个新的生成框架,能够有效弥合意图与轨迹之间的表示差距,这与现有方法的单一生成方式有本质区别。

关键设计:在设计上,InsTraj采用了特定的损失函数来平衡生成轨迹的真实性与语义忠实性,同时在网络结构上引入了多模态融合机制,以增强模型对复杂约束的处理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在综合实验中,InsTraj在生成轨迹的真实性、多样性和语义忠实性方面显著优于现有最先进的方法,具体表现为生成轨迹的真实度提升了XX%,多样性提升了XX%,且语义忠实性得分提高了XX%。这些结果表明InsTraj在实际应用中的有效性和潜力。

🎯 应用场景

该研究的潜在应用领域包括城市规划、交通流量模拟、以及隐私保护的数据共享等。通过生成真实且可控的GPS轨迹,InsTraj能够为城市管理者提供更精准的出行数据支持,促进智能交通系统的发展,提升城市的可持续性与效率。未来,该技术有望在智能出行、个性化服务等领域发挥更大影响。

📄 摘要(原文)

The generation of realistic and controllable GPS trajectories is a fundamental task for applications in urban planning, mobility simulation, and privacy-preserving data sharing. However, existing methods face a two-fold challenge: they lack the deep semantic understanding to interpret complex user travel intent, and struggle to handle complex constraints while maintaining the realistic diversity inherent in human behavior. To resolve this, we introduce InsTraj, a novel framework that instructs diffusion models to generate high-fidelity trajectories directly from natural language descriptions. Specifically, InsTraj first utilizes a powerful large language model to decipher unstructured travel intentions formed in natural language, thereby creating rich semantic blueprints and bridging the representation gap between intentions and trajectories. Subsequently, we proposed a multimodal trajectory diffusion transformer that can integrate semantic guidance to generate high-fidelity and instruction-faithful trajectories that adhere to fine-grained user intent. Comprehensive experiments on real-world datasets demonstrate that InsTraj significantly outperforms state-of-the-art methods in generating trajectories that are realistic, diverse, and semantically faithful to the input instructions.