T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning
作者: Weijie Wei, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald
分类: cs.CV
发布日期: 2023-12-15 (更新: 2024-07-22)
备注: Accepted to ECCV 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出T-MAE,利用时序掩码自编码器提升LiDAR点云表征学习效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: LiDAR点云 自监督学习 表征学习 时间建模 掩码自编码器 自动驾驶 深度学习
📋 核心要点
- 现有LiDAR点云表征学习方法忽略了点云序列中固有的时间信息,限制了模型性能。
- T-MAE通过时序掩码自编码器,学习相邻帧之间的时间依赖性,从而提升表征能力。
- 实验表明,T-MAE在Waymo和ONCE数据集上优于其他自监督方法,验证了其有效性。
📝 摘要(中文)
LiDAR点云理解中带标注数据的稀缺阻碍了有效的表征学习。因此,学者们积极探索有效的自监督预训练范式。然而,LiDAR点云序列中固有的时间信息一直被忽略。为了更好地利用这一特性,我们提出了一种有效的预训练策略,即时间掩码自编码器(T-MAE),它以时间上相邻的帧作为输入,并学习时间依赖性。我们建立了一个包含Siamese编码器和窗口交叉注意力(WCA)模块的SiamWCA骨干网络,用于双帧输入。考虑到自车运动会改变同一实例的视角,时间建模也可以作为一种鲁棒且自然的数据增强,从而增强对目标对象的理解。SiamWCA是一个强大的架构,但严重依赖带标注的数据。我们的T-MAE预训练策略缓解了其对带标注数据的需求。综合实验表明,在Waymo和ONCE数据集上,T-MAE在同类自监督方法中取得了最佳性能。
🔬 方法详解
问题定义:LiDAR点云理解任务中,缺乏大量的标注数据,使得模型难以学习到有效的点云表征。现有方法通常忽略点云序列中的时间信息,未能充分利用数据中的时序关系。
核心思路:T-MAE的核心思路是利用点云序列中的时间一致性进行自监督学习。通过对相邻帧进行掩码,并利用自编码器学习重建未被掩码的部分,从而迫使模型学习点云的时序依赖关系和运动信息。这种方式可以有效利用无标注数据,提升点云表征的质量。
技术框架:T-MAE的整体框架包括以下几个主要模块:1) 数据输入:输入为时间上相邻的两帧LiDAR点云数据。2) 掩码模块:对输入点云进行随机掩码。3) SiamWCA编码器:使用Siamese网络结构提取两帧点云的特征,并使用窗口交叉注意力(WCA)模块进行特征融合。4) 解码器:利用解码器重建被掩码的点云区域。5) 损失函数:计算重建点云与原始点云之间的损失,用于优化模型参数。
关键创新:T-MAE的关键创新在于:1) 时序掩码策略:通过对时间相邻帧进行掩码,迫使模型学习点云的时序依赖关系。2) SiamWCA骨干网络:结合Siamese网络和窗口交叉注意力机制,有效提取和融合两帧点云的特征。这种结构能够更好地捕捉点云之间的对应关系和运动信息。
关键设计:T-MAE的关键设计包括:1) 掩码比例:选择合适的掩码比例,平衡学习难度和信息保留。2) WCA窗口大小:调整窗口大小,控制交叉注意力的范围。3) 损失函数选择:使用合适的重建损失函数,例如Chamfer Distance或Earth Mover's Distance,以保证重建质量。4) SiamWCA的具体网络结构:包括编码器的层数、每层的通道数、激活函数等。
📊 实验亮点
T-MAE在Waymo和ONCE数据集上取得了显著的性能提升。在Waymo数据集上,T-MAE相比于其他自监督方法,在目标检测和语义分割任务上均取得了最佳性能。在ONCE数据集上,T-MAE也展现出了优越的表征学习能力,验证了其在不同数据集上的泛化能力。
🎯 应用场景
T-MAE可应用于自动驾驶、机器人导航、三维重建等领域。通过提升LiDAR点云表征学习的性能,可以提高感知系统的准确性和鲁棒性,从而增强自动驾驶车辆的环境感知能力,提升机器人在复杂环境中的导航能力,并改善三维重建的精度和效率。该方法尤其适用于缺乏标注数据的场景。
📄 摘要(原文)
The scarcity of annotated data in LiDAR point cloud understanding hinders effective representation learning. Consequently, scholars have been actively investigating efficacious self-supervised pre-training paradigms. Nevertheless, temporal information, which is inherent in the LiDAR point cloud sequence, is consistently disregarded. To better utilize this property, we propose an effective pre-training strategy, namely Temporal Masked Auto-Encoders (T-MAE), which takes as input temporally adjacent frames and learns temporal dependency. A SiamWCA backbone, containing a Siamese encoder and a windowed cross-attention (WCA) module, is established for the two-frame input. Considering that the movement of an ego-vehicle alters the view of the same instance, temporal modeling also serves as a robust and natural data augmentation, enhancing the comprehension of target objects. SiamWCA is a powerful architecture but heavily relies on annotated data. Our T-MAE pre-training strategy alleviates its demand for annotated data. Comprehensive experiments demonstrate that T-MAE achieves the best performance on both Waymo and ONCE datasets among competitive self-supervised approaches. Codes will be released at https://github.com/codename1995/T-MAE