SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation
作者: Kejia Yin, Varshanth R. Rao, Ruowei Jiang, Xudong Liu, Parham Aarabi, David B. Lindell
分类: cs.CV, cs.AI
发布日期: 2024-05-28
备注: Accepted at CVPR 2024
💡 一句话要点
SCE-MAE:基于掩码自编码器的选择性对应增强,用于自监督地标估计
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自监督学习 地标估计 掩码自编码器 特征对应 密度峰值聚类
📋 核心要点
- 现有自监督地标估计方法忽略了任务的密集预测特性,依赖于实例级SSL和内存密集型超列结构。
- SCE-MAE利用区域级SSL的MAE,直接在原始特征图上操作,并通过CARB选择性地增强局部对应关系。
- 实验表明,SCE-MAE在landmark匹配和检测任务上显著优于现有SOTA方法,分别提升约20%-44%和9%-15%。
📝 摘要(中文)
自监督地标估计是一项具有挑战性的任务,它需要在缺乏标注数据的情况下形成局部不同的特征表示,以识别稀疏的面部地标。为了解决这个问题,现有的最先进方法(1)从使用实例级自监督学习(SSL)范式训练的骨干网络中提取粗糙特征,忽略了任务的密集预测性质,(2)将它们聚合到内存密集型的超列结构中,以及(3)监督轻量级投影网络,以简单地建立所有空间特征对之间的完整局部对应关系。在本文中,我们介绍了一种名为SCE-MAE的框架,该框架(1)利用MAE,一种区域级的SSL方法,它自然更适合地标预测任务,(2)在原始特征图上操作,而不是在昂贵的超列上操作,以及(3)采用对应近似和细化块(CARB),该块利用简单的密度峰值聚类算法和我们提出的局部约束排斥损失,直接优化仅选择的局部对应关系。通过大量的实验,我们证明了SCE-MAE是非常有效和鲁棒的,在landmark匹配任务上优于现有的SOTA方法约20%-44%,在landmark检测任务上优于约9%-15%。
🔬 方法详解
问题定义:论文旨在解决自监督地标估计问题,即在没有标注数据的情况下,如何准确地预测图像中的关键点位置。现有方法主要存在三个痛点:一是使用实例级别的自监督学习方法提取特征,忽略了地标估计任务的密集预测特性;二是依赖于计算和内存开销大的超列特征;三是简单地建立所有空间特征之间的对应关系,效率较低。
核心思路:论文的核心思路是利用掩码自编码器(MAE)进行区域级别的自监督学习,从而更好地适应地标预测任务的密集预测特性。同时,避免使用超列特征,直接在原始特征图上进行操作,降低计算复杂度。此外,通过选择性地增强局部对应关系,提高地标估计的准确性和效率。
技术框架:SCE-MAE框架主要包含三个部分:首先,使用MAE进行预训练,提取图像的特征表示;然后,将提取的特征图输入到Correspondence Approximation and Refinement Block (CARB)中;最后,利用CARB输出的地标预测结果进行评估。CARB是该框架的核心模块,负责选择性地增强局部对应关系。
关键创新:该论文的关键创新在于提出了Correspondence Approximation and Refinement Block (CARB),该模块利用密度峰值聚类算法和Locality-Constrained Repellence Loss,直接优化选择的局部对应关系。与现有方法的全连接方式不同,CARB只关注最相关的局部特征,从而提高了效率和准确性。
关键设计:CARB模块的关键设计包括:1) 使用密度峰值聚类算法选择具有代表性的局部特征;2) 提出Locality-Constrained Repellence Loss,该损失函数鼓励选择的局部特征具有区分性,同时保持其局部一致性。具体的参数设置和网络结构细节在论文中有详细描述,例如密度峰值聚类算法的参数选择,以及Locality-Constrained Repellence Loss的权重设置。
🖼️ 关键图片
📊 实验亮点
SCE-MAE在landmark匹配任务上超越现有SOTA方法约20%-44%,在landmark检测任务上提升约9%-15%。实验结果表明,该方法在自监督地标估计任务中具有显著优势,尤其是在数据标注稀缺的情况下,能够有效提升地标预测的准确性和鲁棒性。
🎯 应用场景
该研究成果可广泛应用于人脸识别、表情分析、姿态估计等领域。在医疗影像分析中,也可用于器官或病灶的自动定位。此外,在机器人导航和目标跟踪等领域也具有潜在的应用价值,能够提升系统的自主性和鲁棒性。
📄 摘要(原文)
Self-supervised landmark estimation is a challenging task that demands the formation of locally distinct feature representations to identify sparse facial landmarks in the absence of annotated data. To tackle this task, existing state-of-the-art (SOTA) methods (1) extract coarse features from backbones that are trained with instance-level self-supervised learning (SSL) paradigms, which neglect the dense prediction nature of the task, (2) aggregate them into memory-intensive hypercolumn formations, and (3) supervise lightweight projector networks to naively establish full local correspondences among all pairs of spatial features. In this paper, we introduce SCE-MAE, a framework that (1) leverages the MAE, a region-level SSL method that naturally better suits the landmark prediction task, (2) operates on the vanilla feature map instead of on expensive hypercolumns, and (3) employs a Correspondence Approximation and Refinement Block (CARB) that utilizes a simple density peak clustering algorithm and our proposed Locality-Constrained Repellence Loss to directly hone only select local correspondences. We demonstrate through extensive experiments that SCE-MAE is highly effective and robust, outperforming existing SOTA methods by large margins of approximately 20%-44% on the landmark matching and approximately 9%-15% on the landmark detection tasks.