Breaking Data Silos: Towards Open and Scalable Mobility Foundation Models via Generative Continual Learning
作者: Yuan Yuan, Yukun Liu, Chonghua Han, Jie Feng, Yong Li
分类: cs.LG, cs.CR
发布日期: 2025-06-07 (更新: 2025-12-29)
🔗 代码/项目: GITHUB
💡 一句话要点
MoveGCL:通过生成式持续学习打破数据孤岛,实现开放且可扩展的出行基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 出行建模 生成式持续学习 数据孤岛 隐私保护 混合专家模型 城市计算 联邦学习
📋 核心要点
- 现有出行研究受限于“数据孤岛”问题,机构壁垒和隐私法规导致无法获取大规模数据集,阻碍了通用出行规律的发现。
- MoveGCL通过生成式持续学习,允许多个数据持有者在不泄露隐私的情况下,协同训练一个通用的出行基础模型。
- 实验表明,MoveGCL在六个全球城市数据集上达到了与联合训练相当的性能,为开放出行科学提供了新的途径。
📝 摘要(中文)
人类出行是城市科学和可持续性的基石,为能源消耗、碳排放和公共健康提供了关键见解。然而,由于机构边界和隐私法规导致大规模数据集的碎片化,“数据孤岛”问题阻碍了通用出行规律的发现。本文提出了MoveGCL,一个变革性的框架,通过生成式持续学习促进协作和去中心化的出行科学。MoveGCL使数据持有者的分布式生态系统能够共同发展基础模型,而不会损害个人隐私。MoveGCL的核心在于其重放来自生成教师的合成轨迹,并利用出行模式感知的混合专家(MoE)架构的能力。这使得模型能够封装不同城市结构的独特特征,同时降低知识遗忘(灾难性遗忘)的风险。通过专门的逐层渐进适应策略,MoveGCL确保了在持续集成新城市领域期间的稳定收敛。我们在六个全球城市数据集上的实验表明,MoveGCL实现了与联合训练相当的性能,这在孤岛条件下是以前无法实现的壮举。这项工作为开放出行科学提供了一条可扩展的、保护隐私的途径,使研究人员能够通过跨机构的AI协作来应对全球可持续性挑战。为了方便重现和未来的研究,我们已经在https://github.com/tsinghua-fib-lab/MoveGCL发布了代码和模型。
🔬 方法详解
问题定义:现有方法由于数据孤岛问题,无法有效利用不同来源的出行数据进行联合训练,导致模型泛化能力受限,难以发现通用的出行规律。同时,直接共享原始数据会带来隐私泄露的风险。
核心思路:MoveGCL的核心在于利用生成式持续学习,让每个数据持有者训练一个生成模型(教师模型),然后用该模型生成合成数据,再将合成数据用于训练一个全局的学生模型。这样既能利用不同来源的数据,又能保护原始数据的隐私。此外,使用混合专家模型(MoE)来捕捉不同城市结构的独特特征。
技术框架:MoveGCL框架包含以下几个主要步骤:1) 每个数据持有者使用本地数据训练一个生成模型(教师模型),该模型能够生成具有相似出行模式的合成轨迹。2) 将这些生成模型作为“专家”,构建一个混合专家模型(MoE)。3) 使用MoE生成的合成数据训练一个全局的学生模型。4) 通过逐层渐进适应策略,在持续集成新城市领域时,保证模型的稳定收敛,避免灾难性遗忘。
关键创新:MoveGCL的关键创新在于:1) 利用生成模型合成数据,解决了数据孤岛和隐私保护之间的矛盾。2) 采用出行模式感知的混合专家模型(MoE),能够捕捉不同城市结构的独特特征,提高模型的泛化能力。3) 提出了逐层渐进适应策略,保证了在持续学习过程中模型的稳定性和性能。
关键设计:MoveGCL的关键设计包括:1) 生成模型的选择:可以使用GAN、VAE等生成模型,目标是生成与真实轨迹相似的合成轨迹。2) 混合专家模型(MoE)的结构:需要设计合适的专家数量和路由机制,以便有效地捕捉不同城市结构的特征。3) 逐层渐进适应策略:逐步调整模型的不同层,避免一次性更新导致灾难性遗忘。损失函数的设计需要考虑生成数据的质量和模型预测的准确性。
🖼️ 关键图片
📊 实验亮点
MoveGCL在六个全球城市数据集上进行了实验,结果表明,MoveGCL能够达到与联合训练相当的性能,而无需共享原始数据。这证明了MoveGCL在解决数据孤岛问题和保护隐私方面的有效性。实验结果还表明,MoveGCL能够有效地捕捉不同城市结构的独特特征,具有良好的泛化能力。
🎯 应用场景
MoveGCL可应用于城市规划、交通管理、公共卫生等领域。通过整合不同来源的出行数据,可以更准确地预测交通流量、优化交通路线、评估公共卫生风险,并为城市可持续发展提供决策支持。该研究为跨机构AI协作提供了一种新的范式,促进了开放出行科学的发展。
📄 摘要(原文)
Human mobility is a fundamental pillar of urban science and sustainability, providing critical insights into energy consumption, carbon emissions, and public health. However, the discovery of universal mobility laws is currently hindered by the ``data silo'' problem, where institutional boundaries and privacy regulations fragment the necessary large-scale datasets. In this paper, we propose MoveGCL, a transformative framework that facilitates collaborative and decentralized mobility science via generative continual learning. MoveGCL enables a distributed ecosystem of data holders to jointly evolve a foundation model without compromising individual privacy. The core of MoveGCL lies in its ability to replay synthetic trajectories derived from a generative teacher and utilize a mobility-pattern-aware Mixture-of-Experts (MoE) architecture. This allows the model to encapsulate the unique characteristics of diverse urban structures while mitigating the risk of knowledge erosion (catastrophic forgetting). With a specialized layer-wise progressive adaptation strategy, MoveGCL ensures stable convergence during the continuous integration of new urban domains. Our experiments on six global urban datasets demonstrate that MoveGCL achieves performance parity with joint training, a previously unattainable feat under siloed conditions. This work provides a scalable, privacy-preserving pathway toward Open Mobility Science, empowering researchers to address global sustainability challenges through cross-institutional AI collaboration. To facilitate reproducibility and future research, we have released the code and models at \color{blue}{https://github.com/tsinghua-fib-lab/MoveGCL}.