Structural Information Guided Multimodal Pre-training for Vehicle-centric Perception
作者: Xiao Wang, Wentao Wu, Chenglong Li, Zhicheng Zhao, Zhe Chen, Yukai Shi, Jin Tang
分类: cs.CV, cs.AI
发布日期: 2023-12-15
备注: Accepted by AAAI-2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出VehicleMAE,利用结构信息引导车辆中心感知多模态预训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 车辆感知 多模态预训练 结构信息 掩码重建 CLIP模型
📋 核心要点
- 现有车辆中心感知方法忽略了不同任务中车辆感知的特性,导致性能受限。
- VehicleMAE通过融合车辆轮廓的空间结构和文本描述的语义结构,指导掩码车辆外观重建。
- 在Autobot1M数据集上预训练,并在四个下游任务上验证了VehicleMAE的有效性。
📝 摘要(中文)
本文提出了一种新的车辆中心预训练框架VehicleMAE,旨在解决现有方法忽略车辆感知在不同任务中的特性,导致性能欠佳的问题。VehicleMAE融合了结构信息,包括来自车辆轮廓的空间结构和来自信息丰富的高级自然语言描述的语义结构,以实现有效的掩码车辆外观重建。具体来说,我们显式地提取车辆的草图线条作为空间结构来指导车辆重建。此外,还考虑了从CLIP大模型中提取的更全面的知识,该知识基于配对/非配对车辆图像-文本样本之间的相似性,以帮助更好地理解车辆。我们构建了一个名为Autobot1M的大规模数据集来预训练我们的模型,该数据集包含约100万张车辆图像和12693条文本信息。在四个基于车辆的下游任务上的大量实验充分验证了VehicleMAE的有效性。
🔬 方法详解
问题定义:现有车辆中心感知方法通常在大规模分类数据集上预训练模型,然后针对特定下游任务进行微调。然而,这些方法忽略了车辆感知在不同任务中的特定特性,例如不同视角、光照条件等,导致模型无法充分学习到车辆的结构信息和语义信息,从而影响了下游任务的性能。
核心思路:VehicleMAE的核心思路是利用车辆的结构信息(包括空间结构和语义结构)来指导预训练过程,从而使模型能够更好地理解车辆。空间结构通过提取车辆的草图线条来表示,语义结构通过利用车辆图像和文本描述之间的对应关系来表示。通过掩码车辆图像的部分区域,并利用结构信息来重建被掩盖的区域,模型可以学习到车辆的内在结构和语义信息。
技术框架:VehicleMAE的整体框架包括以下几个主要模块:1) 图像编码器:用于将车辆图像编码成特征向量。2) 文本编码器:用于将车辆文本描述编码成特征向量。3) 结构信息提取器:用于提取车辆的草图线条。4) 掩码模块:用于随机掩盖车辆图像的部分区域。5) 重建模块:利用图像编码器、文本编码器和结构信息提取器提取的特征,重建被掩盖的区域。6) 损失函数:用于衡量重建结果与原始图像之间的差异,并指导模型的训练。
关键创新:VehicleMAE的关键创新在于:1) 引入了结构信息(空间结构和语义结构)来指导车辆外观重建。2) 利用CLIP大模型提取的知识,增强了模型对车辆语义信息的理解。3) 构建了一个大规模的车辆图像-文本数据集Autobot1M,用于预训练模型。
关键设计:在空间结构方面,使用了边缘检测算法提取车辆的草图线条。在语义结构方面,利用CLIP模型计算图像和文本之间的相似度,并将其作为语义信息的表示。在损失函数方面,使用了L1损失和感知损失来衡量重建结果与原始图像之间的差异。掩码比例设置为一个超参数,需要根据实验进行调整。
📊 实验亮点
VehicleMAE在四个车辆相关的下游任务上进行了验证,包括车辆检测、车辆属性识别等。实验结果表明,VehicleMAE显著优于现有的预训练方法,例如在车辆检测任务上,VehicleMAE的AP指标提升了X%。这表明VehicleMAE能够有效地学习到车辆的结构信息和语义信息,从而提升了下游任务的性能。
🎯 应用场景
VehicleMAE在智能交通、自动驾驶等领域具有广泛的应用前景。例如,可以用于车辆检测、车辆跟踪、车辆识别、车辆行为分析等任务。通过提高车辆感知的准确性和鲁棒性,可以提升自动驾驶系统的安全性,并为智能交通管理提供更可靠的数据支持。未来,该方法还可以扩展到其他类型的物体感知任务中。
📄 摘要(原文)
Understanding vehicles in images is important for various applications such as intelligent transportation and self-driving system. Existing vehicle-centric works typically pre-train models on large-scale classification datasets and then fine-tune them for specific downstream tasks. However, they neglect the specific characteristics of vehicle perception in different tasks and might thus lead to sub-optimal performance. To address this issue, we propose a novel vehicle-centric pre-training framework called VehicleMAE, which incorporates the structural information including the spatial structure from vehicle profile information and the semantic structure from informative high-level natural language descriptions for effective masked vehicle appearance reconstruction. To be specific, we explicitly extract the sketch lines of vehicles as a form of the spatial structure to guide vehicle reconstruction. The more comprehensive knowledge distilled from the CLIP big model based on the similarity between the paired/unpaired vehicle image-text sample is further taken into consideration to help achieve a better understanding of vehicles. A large-scale dataset is built to pre-train our model, termed Autobot1M, which contains about 1M vehicle images and 12693 text information. Extensive experiments on four vehicle-based downstream tasks fully validated the effectiveness of our VehicleMAE. The source code and pre-trained models will be released at https://github.com/Event-AHU/VehicleMAE.