Large Foundation Models for Trajectory Prediction in Autonomous Driving: A Comprehensive Survey

📄 arXiv: 2509.10570v1 📥 PDF

作者: Wei Dai, Shengen Wu, Wei Wu, Zhenhao Wang, Sisuo Lyu, Haicheng Liao, Limin Yu, Weiping Ding, Runwei Guan, Yutao Yue

分类: cs.RO, cs.AI

发布日期: 2025-09-11

备注: 22 pages, 6 figures


💡 一句话要点

综述性论文:利用大型基础模型解决自动驾驶轨迹预测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 轨迹预测 自动驾驶 大型基础模型 大型语言模型 多模态融合 上下文推理 综述

📋 核心要点

  1. 现有轨迹预测方法依赖大量标注数据,缺乏可解释性,且在复杂长尾场景下泛化能力弱。
  2. 本文综述了利用大型语言模型和多模态大型语言模型进行轨迹预测的方法,核心在于融合语言和场景语义。
  3. 综述涵盖了车辆和行人的轨迹预测任务,分析了评估指标和数据集,并讨论了关键挑战和未来方向。

📝 摘要(中文)

轨迹预测是自动驾驶的关键功能,它能够预测车辆和行人等交通参与者的未来运动轨迹,这对于驾驶安全至关重要。传统的深度学习方法虽然提高了准确性,但仍受到固有局限性的阻碍,包括缺乏可解释性、严重依赖大规模标注数据以及在长尾场景中的泛化能力较弱。大型基础模型(LFMs)的兴起正在改变轨迹预测的研究范式。本综述系统地回顾了LFMs的最新进展,特别是用于轨迹预测的大型语言模型(LLMs)和多模态大型语言模型(MLLMs)。通过整合语言和场景语义,LFMs促进了可解释的上下文推理,显著提高了复杂环境中预测的安全性和泛化能力。文章重点介绍了三种核心方法:轨迹-语言映射、多模态融合和基于约束的推理。它涵盖了车辆和行人的预测任务、评估指标和数据集分析。讨论了计算延迟、数据稀缺和真实世界鲁棒性等关键挑战,以及包括低延迟推理、因果感知建模和运动基础模型在内的未来研究方向。

🔬 方法详解

问题定义:论文旨在解决自动驾驶场景下轨迹预测的难题。现有方法,如传统的深度学习模型,在可解释性、数据依赖性和泛化能力方面存在局限性。尤其是在面对复杂和罕见场景时,这些模型的预测性能会显著下降,难以满足自动驾驶对安全性的高要求。

核心思路:论文的核心思路是利用大型基础模型(LFMs),特别是大型语言模型(LLMs)和多模态大型语言模型(MLLMs),来提升轨迹预测的性能。通过将轨迹信息与语言描述和场景语义相结合,LFMs能够进行更有效的上下文推理,从而提高预测的准确性和鲁棒性。

技术框架:论文综述了三种主要的技术框架:轨迹-语言映射、多模态融合和基于约束的推理。轨迹-语言映射旨在建立轨迹数据和自然语言描述之间的联系,使模型能够理解轨迹的语义信息。多模态融合则将视觉、激光雷达等多种传感器数据与语言信息融合,以提供更全面的场景理解。基于约束的推理则利用物理和社会规则等约束条件来规范预测结果,提高预测的合理性。

关键创新:论文的关键创新在于将大型基础模型引入到轨迹预测领域。与传统的深度学习方法相比,LFMs具有更强的上下文理解能力和泛化能力,能够更好地处理复杂和罕见场景。此外,LFMs还能够提供可解释的预测结果,这对于提高自动驾驶系统的安全性至关重要。

关键设计:论文中提到的关键设计包括:如何有效地将轨迹数据转换为语言描述,如何设计多模态融合模块以充分利用不同传感器数据,以及如何将物理和社会规则等约束条件融入到预测模型中。这些设计细节对于LFMs在轨迹预测任务中的性能至关重要,但具体实现方法因不同的研究而异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文是一篇综述性文章,因此没有具体的实验结果。但它总结了当前利用大型基础模型进行轨迹预测的研究进展,并指出了未来研究方向,例如低延迟推理、因果感知建模和运动基础模型。这些方向有望显著提升轨迹预测的性能和实用性。

🎯 应用场景

该研究成果可应用于自动驾驶汽车、高级驾驶辅助系统(ADAS)、智能交通管理等领域。通过提高轨迹预测的准确性和鲁棒性,可以显著提升自动驾驶系统的安全性,减少交通事故的发生。未来,该技术还有望应用于机器人导航、无人机飞行等领域。

📄 摘要(原文)

Trajectory prediction serves as a critical functionality in autonomous driving, enabling the anticipation of future motion paths for traffic participants such as vehicles and pedestrians, which is essential for driving safety. Although conventional deep learning methods have improved accuracy, they remain hindered by inherent limitations, including lack of interpretability, heavy reliance on large-scale annotated data, and weak generalization in long-tail scenarios. The rise of Large Foundation Models (LFMs) is transforming the research paradigm of trajectory prediction. This survey offers a systematic review of recent advances in LFMs, particularly Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) for trajectory prediction. By integrating linguistic and scene semantics, LFMs facilitate interpretable contextual reasoning, significantly enhancing prediction safety and generalization in complex environments. The article highlights three core methodologies: trajectory-language mapping, multimodal fusion, and constraint-based reasoning. It covers prediction tasks for both vehicles and pedestrians, evaluation metrics, and dataset analyses. Key challenges such as computational latency, data scarcity, and real-world robustness are discussed, along with future research directions including low-latency inference, causality-aware modeling, and motion foundation models.