OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction

📄 arXiv: 2507.23657v1 📥 PDF

作者: Yang Gao, Po-Chien Luan, Kaouther Messaoud, Lan Feng, Alexandre Alahi

分类: cs.CV

发布日期: 2025-07-31

🔗 代码/项目: GITHUB


💡 一句话要点

OmniTraj:通过异构数据预训练实现自适应和零样本的人类轨迹预测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人类轨迹预测 预训练 零样本学习 Transformer 时间动态 异构数据 自适应学习

📋 核心要点

  1. 现有轨迹预测模型在零样本迁移到具有不同时间动态的数据集时性能下降,需要针对特定数据集进行微调。
  2. OmniTraj通过显式地将时间元数据(如帧率)作为条件输入,提升模型的时间泛化能力,实现更好的零样本迁移。
  3. 实验表明,OmniTraj在零样本迁移场景中显著降低了预测误差,并在微调后在多个数据集上取得了SOTA结果。

📝 摘要(中文)

大规模预训练显著提升了人类轨迹预测的性能,但一个关键挑战仍然存在:如何零样本迁移到具有不同时间动态的未见数据集。目前最先进的预训练模型通常需要微调才能适应具有不同帧率或观察范围的新数据集,这限制了它们的可扩展性和实际应用。本文系统地研究了这一局限性,并提出了一个稳健的解决方案。我们首先证明,现有的数据感知离散模型在迁移到具有时间设置变化的新场景时表现不佳。然后,我们将时间泛化与数据集偏移隔离,揭示了显式地调节时间元数据是一种非常有效的解决方案。基于这一洞察,我们提出了OmniTraj,一个基于Transformer的模型,在大规模异构数据集上进行预训练。实验表明,显式地调节帧率使OmniTraj能够实现最先进的零样本迁移性能,在具有挑战性的跨设置场景中将预测误差降低了70%以上。经过微调后,OmniTraj在NBA、JTA、WorldPose和ETH-UCY四个数据集上取得了最先进的结果。代码已公开。

🔬 方法详解

问题定义:现有的人类轨迹预测模型在面对具有不同时间动态(例如,不同的帧率或观察窗口)的新数据集时,通常需要进行微调才能获得良好的性能。这意味着这些模型无法很好地泛化到未见过的时间设置,限制了它们在实际应用中的灵活性和可扩展性。现有方法未能充分利用时间信息进行泛化。

核心思路:OmniTraj的核心思路是显式地将时间元数据(例如,帧率)作为模型的输入条件。通过这种方式,模型可以学习到时间动态与轨迹预测之间的关系,从而更好地泛化到具有不同时间设置的新数据集。这种显式建模时间信息的方法,使得模型能够更好地适应不同的时间尺度,从而提高零样本迁移能力。

技术框架:OmniTraj采用基于Transformer的架构,并在大规模异构数据集上进行预训练。其整体流程包括:1)数据预处理,将不同数据集的轨迹数据统一格式化,并提取时间元数据;2)模型训练,使用Transformer模型学习轨迹和时间元数据之间的关系;3)零样本迁移,将预训练的模型直接应用于新的数据集,无需微调;4)微调(可选),在特定数据集上对模型进行微调,以进一步提高性能。主要模块包括Transformer编码器、解码器以及时间元数据嵌入模块。

关键创新:OmniTraj的关键创新在于显式地将时间元数据作为模型的输入条件。与以往隐式地学习时间动态的方法不同,OmniTraj通过显式建模,使得模型能够更好地理解和利用时间信息,从而提高零样本迁移能力。这种显式建模方法使得模型能够更好地适应不同的时间尺度,从而提高泛化能力。

关键设计:OmniTraj的关键设计包括:1)时间元数据嵌入:使用嵌入层将时间元数据(例如,帧率)转换为向量表示,并将其与轨迹特征进行融合;2)Transformer架构:采用标准的Transformer编码器-解码器架构,用于学习轨迹和时间元数据之间的关系;3)损失函数:使用标准的轨迹预测损失函数,例如均方误差(MSE),来优化模型。具体的参数设置和网络结构细节可以在论文的补充材料中找到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniTraj在零样本迁移场景中表现出色,在具有挑战性的跨设置场景中将预测误差降低了70%以上。经过微调后,OmniTraj在NBA、JTA、WorldPose和ETH-UCY四个数据集上取得了最先进的结果,证明了其强大的泛化能力和优越的性能。

🎯 应用场景

OmniTraj的研究成果可广泛应用于自动驾驶、机器人导航、视频监控、运动分析等领域。例如,在自动驾驶中,可以利用OmniTraj预测行人和车辆的未来轨迹,从而提高驾驶安全性。在机器人导航中,可以预测人类的运动轨迹,使机器人能够更好地与人类协作。该研究的零样本迁移能力降低了模型部署的成本,加速了相关技术落地。

📄 摘要(原文)

While large-scale pre-training has advanced human trajectory prediction, a critical challenge remains: zero-shot transfer to unseen dataset with varying temporal dynamics. State-of-the-art pre-trained models often require fine-tuning to adapt to new datasets with different frame rates or observation horizons, limiting their scalability and practical utility. In this work, we systematically investigate this limitation and propose a robust solution. We first demonstrate that existing data-aware discrete models struggle when transferred to new scenarios with shifted temporal setups. We then isolate the temporal generalization from dataset shift, revealing that a simple, explicit conditioning mechanism for temporal metadata is a highly effective solution. Based on this insight, we present OmniTraj, a Transformer-based model pre-trained on a large-scale, heterogeneous dataset. Our experiments show that explicitly conditioning on the frame rate enables OmniTraj to achieve state-of-the-art zero-shot transfer performance, reducing prediction error by over 70\% in challenging cross-setup scenarios. After fine-tuning, OmniTraj achieves state-of-the-art results on four datasets, including NBA, JTA, WorldPose, and ETH-UCY. The code is publicly available: https://github.com/vita-epfl/omnitraj