Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities

作者: Rajendramayavan Sathyam, Yueqi Li

分类: cs.RO, cs.CV

发布日期: 2025-09-10

备注: 32 pages, 14 figures, accepted at IEEE Open Journal of Vehicular Technology (OJVT)

DOI: 10.1109/OJVT.2025.3604823

💡 一句话要点

综述：自动驾驶感知中的基础模型及其核心能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶感知 基础模型 深度学习 多传感器融合 时间推理

📋 核心要点

现有自动驾驶感知模型在泛化性、可扩展性和鲁棒性方面存在不足，难以适应复杂多变的驾驶环境。
本文提出了一种以能力为导向的框架，将自动驾驶感知所需能力分解为广义知识、空间理解、多传感器鲁棒性和时间推理四个方面。
通过对现有基础模型在上述四个能力上的表现进行分析，总结了现有方法的优缺点，并指出了未来研究方向。

📝 摘要（中文）

基础模型正在革新自动驾驶感知领域，将研究重心从狭窄的、特定任务的深度学习模型转变为在海量、多样化数据集上训练的通用架构。本综述考察了这些模型如何应对自动驾驶感知中的关键挑战，包括泛化能力、可扩展性以及对分布偏移的鲁棒性。文章提出了一个新颖的分类法，围绕动态驾驶环境中实现鲁棒性能的四个基本能力构建：广义知识、空间理解、多传感器鲁棒性和时间推理。对于每种能力，综述阐明了其重要性并全面回顾了前沿方法。与传统以方法为中心的综述不同，本文独特的框架优先考虑概念设计原则，为模型开发提供了一个以能力为导向的指南，并更清晰地洞察基础方面。最后，讨论了关键挑战，特别是与将这些能力集成到实时、可扩展系统中的挑战，以及与计算需求相关的更广泛的部署挑战，并确保模型可靠性，以防止幻觉和分布外失效等问题。本综述还概述了关键的未来研究方向，以实现基础模型在自动驾驶系统中安全有效的部署。

🔬 方法详解

问题定义：自动驾驶感知任务面临着泛化性、可扩展性和鲁棒性方面的挑战。传统的、特定任务的深度学习模型难以适应真实世界中复杂多变的驾驶环境，例如未知的场景、恶劣的天气条件以及传感器噪声等。现有方法往往针对特定数据集或特定任务进行优化，缺乏通用性和适应性。

核心思路：本文的核心思路是将自动驾驶感知任务分解为四个关键能力：广义知识、空间理解、多传感器鲁棒性和时间推理。通过分析现有基础模型在这些能力上的表现，可以更清晰地了解模型的优势和不足，并为未来的模型设计提供指导。这种以能力为导向的框架能够促进对模型基础方面的理解，并推动更通用、更鲁棒的自动驾驶感知系统的发展。

技术框架：本文的综述框架主要包含以下几个阶段：1) 介绍自动驾驶感知任务的背景和挑战；2) 定义自动驾驶感知所需的四个关键能力；3) 回顾现有基础模型在这些能力上的表现；4) 讨论当前面临的挑战和未来的研究方向。每个能力都作为一个独立的章节进行详细阐述，包括其重要性、现有方法以及未来发展趋势。

关键创新：本文的关键创新在于提出了一个以能力为导向的自动驾驶感知模型分类框架。与传统的以方法为中心的综述不同，本文更加关注模型背后的设计原则和核心能力。这种框架能够帮助研究人员更好地理解不同模型之间的差异，并为未来的模型设计提供更清晰的指导。

关键设计：本文的综述框架并没有涉及具体的模型参数设置或网络结构。相反，它侧重于对现有模型的概念性分析和比较。例如，在讨论广义知识时，文章会分析不同模型如何利用大规模数据集进行预训练，以及如何将预训练知识迁移到自动驾驶感知任务中。在讨论空间理解时，文章会分析不同模型如何利用卷积神经网络或Transformer等架构来提取图像或点云中的空间特征。

🖼️ 关键图片

📊 实验亮点

本文提出了一个新颖的、以能力为导向的自动驾驶感知模型分类框架，该框架将自动驾驶感知任务分解为广义知识、空间理解、多传感器鲁棒性和时间推理四个关键能力。通过对现有基础模型在这些能力上的分析，总结了现有方法的优缺点，并指出了未来研究方向。

🎯 应用场景

该研究成果可应用于自动驾驶系统的感知模块，提升车辆在复杂环境下的感知能力，从而提高自动驾驶的安全性和可靠性。此外，该综述提出的能力导向框架可以指导未来自动驾驶感知模型的设计和开发，推动自动驾驶技术的进步。

📄 摘要（原文）

Foundation models are revolutionizing autonomous driving perception, transitioning the field from narrow, task-specific deep learning models to versatile, general-purpose architectures trained on vast, diverse datasets. This survey examines how these models address critical challenges in autonomous perception, including limitations in generalization, scalability, and robustness to distributional shifts. The survey introduces a novel taxonomy structured around four essential capabilities for robust performance in dynamic driving environments: generalized knowledge, spatial understanding, multi-sensor robustness, and temporal reasoning. For each capability, the survey elucidates its significance and comprehensively reviews cutting-edge approaches. Diverging from traditional method-centric surveys, our unique framework prioritizes conceptual design principles, providing a capability-driven guide for model development and clearer insights into foundational aspects. We conclude by discussing key challenges, particularly those associated with the integration of these capabilities into real-time, scalable systems, and broader deployment challenges related to computational demands and ensuring model reliability against issues like hallucinations and out-of-distribution failures. The survey also outlines crucial future research directions to enable the safe and effective deployment of foundation models in autonomous driving systems.

Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理