Revisiting Birds Eye View Perception Models with Frozen Foundation Models: DINOv2 and Metric3Dv2

作者: Seamie Hayes, Ganesh Sistu, Ciarán Eising

分类: cs.CV

发布日期: 2025-01-14

备注: Accepted for publication at the Electronic Imaging - Autonomous Vehicles and Machines Connference 2025

💡 一句话要点

利用冻结的DINOv2和Metric3Dv2提升鸟瞰图感知模型性能

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 鸟瞰图感知 预训练模型 DINOv2 Metric3Dv2 深度估计 伪激光雷达 车辆分割

📋 核心要点

鸟瞰图感知模型依赖大量数据，但实际应用中数据获取受限，如何有效利用有限数据是核心问题。
论文核心在于利用冻结的DINOv2和Metric3Dv2等预训练模型，提升现有BEV感知模型的性能和数据效率。
实验表明，该方法在车辆分割任务上，仅用一半数据就超越了Lift-Splat-Shoot基线，并提升了Simple-BEV的性能。

📝 摘要（中文）

鸟瞰图（BEV）感知模型需要大量数据才能有效执行和泛化。虽然传统数据集通常提供来自不同位置的丰富驾驶场景，但情况并非总是如此。最大限度地利用可用的训练数据至关重要。随着DINOv2和Metric3Dv2等大型基础模型的出现，一个相关的问题出现了：这些模型能否集成到现有的模型架构中，不仅减少所需的训练数据，而且超越当前模型的性能？我们选择了车辆分割领域的两种模型架构进行修改：Lift-Splat-Shoot和Simple-BEV。对于Lift-Splat-Shoot，我们探索了使用冻结的DINOv2进行特征提取和Metric3Dv2进行深度估计，仅使用一半的训练数据和迭代次数，就大大超过了基线结果7.4 IoU。此外，我们引入了Metric3Dv2的深度信息作为伪激光雷达点云的创新应用，并将其整合到Simple-BEV架构中，取代了传统的激光雷达。与仅使用摄像头的模型相比，这种集成带来了+3 IoU的改进。

🔬 方法详解

问题定义：鸟瞰图（BEV）感知模型需要大量训练数据才能达到良好的性能和泛化能力。然而，在许多实际场景中，获取足够多的标注数据是昂贵且耗时的。现有方法在数据量不足的情况下，性能会显著下降，限制了其应用范围。

核心思路：论文的核心思路是利用预训练的视觉基础模型（如DINOv2和Metric3Dv2）的强大特征提取和深度估计能力，来弥补训练数据不足的问题。通过冻结这些预训练模型的参数，可以避免在小数据集上进行微调，从而减少过拟合的风险，并加速训练过程。

技术框架：论文主要针对两种BEV感知模型进行了改进：Lift-Splat-Shoot和Simple-BEV。对于Lift-Splat-Shoot，使用冻结的DINOv2提取图像特征，并使用冻结的Metric3Dv2进行深度估计。对于Simple-BEV，将Metric3Dv2的深度信息转换为伪激光雷达点云，替代传统的激光雷达输入。

关键创新：论文的关键创新在于将预训练的深度估计模型Metric3Dv2生成的深度信息，创新性地转换为伪激光雷达点云，并将其应用于Simple-BEV架构中。这种方法有效地利用了预训练模型的深度信息，避免了直接在BEV空间进行深度预测的困难。

关键设计：对于Lift-Splat-Shoot，DINOv2和Metric3Dv2的参数被冻结，只训练BEV编码器和分割头。对于Simple-BEV，伪激光雷达点云的生成方式和点云编码器的选择是关键设计。损失函数方面，主要采用交叉熵损失函数进行分割任务的训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用冻结的DINOv2和Metric3Dv2，Lift-Splat-Shoot模型仅使用一半的训练数据和迭代次数，就超过了基线结果7.4 IoU。此外，将Metric3Dv2的深度信息作为伪激光雷达点云整合到Simple-BEV架构中，与仅使用摄像头的模型相比，带来了+3 IoU的改进。这些结果验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、智能交通、机器人导航等领域。通过利用预训练模型，可以降低BEV感知模型对大量标注数据的依赖，从而降低开发成本，加速相关技术的落地。此外，该方法还可以应用于数据稀缺的场景，例如特定城市或地区的自动驾驶应用。

📄 摘要（原文）

Birds Eye View perception models require extensive data to perform and generalize effectively. While traditional datasets often provide abundant driving scenes from diverse locations, this is not always the case. It is crucial to maximize the utility of the available training data. With the advent of large foundation models such as DINOv2 and Metric3Dv2, a pertinent question arises: can these models be integrated into existing model architectures to not only reduce the required training data but surpass the performance of current models? We choose two model architectures in the vehicle segmentation domain to alter: Lift-Splat-Shoot, and Simple-BEV. For Lift-Splat-Shoot, we explore the implementation of frozen DINOv2 for feature extraction and Metric3Dv2 for depth estimation, where we greatly exceed the baseline results by 7.4 IoU while utilizing only half the training data and iterations. Furthermore, we introduce an innovative application of Metric3Dv2's depth information as a PseudoLiDAR point cloud incorporated into the Simple-BEV architecture, replacing traditional LiDAR. This integration results in a +3 IoU improvement compared to the Camera-only model.

Revisiting Birds Eye View Perception Models with Frozen Foundation Models: DINOv2 and Metric3Dv2

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理