A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders

📄 arXiv: 2408.02245v2 📥 PDF

作者: Muhammad Abdullah Jamal, Omid Mohareri

分类: cs.CV

发布日期: 2024-08-05 (更新: 2024-09-16)


💡 一句话要点

提出一种多模态对比掩码自编码器的两阶段渐进式预训练方法,用于RGB-D图像理解。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: RGB-D图像理解 预训练 对比学习 掩码自编码器 去噪 多模态融合 渐进式学习

📋 核心要点

  1. 现有RGB-D图像理解方法在跨模态信息融合和高频细节捕捉方面存在不足,限制了模型性能。
  2. 提出一种两阶段渐进式预训练方法,利用对比学习进行跨模态表示学习,再通过掩码自编码和去噪学习局部空间相关性和高频信息。
  3. 在ScanNet等数据集上的实验表明,该方法在语义分割任务上优于现有方法,尤其在低数据情况下表现出优势。

📝 摘要(中文)

本文提出了一种新的渐进式预训练方法,用于利用RGB-D数据集进行图像理解任务。该方法利用多模态对比掩码自编码器和去噪技术。我们提出的方法包括两个阶段。在第一阶段,我们使用对比学习预训练模型,以学习跨模态表示。在第二阶段,我们使用掩码自编码和扩散模型中使用的去噪/噪声预测进一步预训练模型。掩码自编码侧重于利用局部空间相关性重建输入模态中缺失的patches,而去噪学习输入数据的高频分量。此外,它在第二阶段通过利用第一阶段获得的知识来结合全局蒸馏。我们的方法是可扩展的、鲁棒的,并且适用于预训练RGB-D数据集。在ScanNet、NYUv2和SUN RGB-D等多个数据集上的大量实验表明了我们方法的有效性和优越性能。具体来说,我们在ScanNet语义分割上展示了相对于Mask3D +1.3% mIoU的改进。我们通过针对最先进的方法评估语义分割任务,进一步证明了我们的方法在低数据状态下的有效性。

🔬 方法详解

问题定义:论文旨在解决RGB-D图像理解任务中,如何有效利用多模态信息进行预训练,从而提升下游任务性能的问题。现有方法通常难以充分挖掘RGB和深度信息之间的关联,并且对图像高频细节的建模能力不足,导致模型泛化能力受限。

核心思路:论文的核心思路是采用两阶段渐进式预训练策略。第一阶段通过对比学习,使模型学习到RGB和深度信息之间的跨模态表示。第二阶段利用掩码自编码器和去噪技术,增强模型对局部空间相关性和高频细节的建模能力。这种渐进式学习方式能够使模型逐步掌握RGB-D数据的关键特征。

技术框架:整体框架包含两个主要阶段:1) 对比学习阶段:使用对比学习损失函数,促使模型学习RGB和深度信息之间的共享表示空间。2) 掩码自编码和去噪阶段:首先随机mask输入图像的部分区域,然后利用自编码器重建被mask区域。同时,引入去噪任务,预测输入数据中的噪声,从而提升模型对高频细节的感知能力。此外,该阶段还引入全局蒸馏,利用第一阶段学习到的知识指导第二阶段的学习。

关键创新:该方法的主要创新在于:1) 提出了一种两阶段渐进式预训练框架,能够有效结合对比学习和掩码自编码的优势。2) 将去噪技术引入到RGB-D图像的预训练中,增强了模型对高频细节的建模能力。3) 采用全局蒸馏策略,将第一阶段学习到的知识迁移到第二阶段,加速模型收敛并提升性能。

关键设计:在对比学习阶段,使用了InfoNCE损失函数。在掩码自编码阶段,mask比例设置为一个超参数,需要根据数据集进行调整。去噪任务中,噪声的类型和强度也需要仔细设计。全局蒸馏采用KL散度损失函数,衡量两个阶段输出之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在ScanNet语义分割任务上取得了显著的性能提升,mIoU指标相较于Mask3D提升了1.3%。此外,在低数据情况下,该方法仍然能够保持较高的性能,表明其具有良好的泛化能力和鲁棒性。这些结果验证了该方法在RGB-D图像理解任务中的有效性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、三维场景理解等领域。通过提升模型对RGB-D数据的理解能力,可以提高机器人在复杂环境中的感知和决策能力。此外,该方法在低数据情况下的优势,使其在数据标注成本较高的场景中具有重要应用价值。

📄 摘要(原文)

In this paper, we propose a new progressive pre-training method for image understanding tasks which leverages RGB-D datasets. The method utilizes Multi-Modal Contrastive Masked Autoencoder and Denoising techniques. Our proposed approach consists of two stages. In the first stage, we pre-train the model using contrastive learning to learn cross-modal representations. In the second stage, we further pre-train the model using masked autoencoding and denoising/noise prediction used in diffusion models. Masked autoencoding focuses on reconstructing the missing patches in the input modality using local spatial correlations, while denoising learns high frequency components of the input data. Moreover, it incorporates global distillation in the second stage by leveraging the knowledge acquired in stage one. Our approach is scalable, robust and suitable for pre-training RGB-D datasets. Extensive experiments on multiple datasets such as ScanNet, NYUv2 and SUN RGB-D show the efficacy and superior performance of our approach. Specifically, we show an improvement of +1.3% mIoU against Mask3D on ScanNet semantic segmentation. We further demonstrate the effectiveness of our approach in low-data regime by evaluating it for semantic segmentation task against the state-of-the-art methods.