SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation

作者: Kejia Yin, Varshanth R. Rao, Ruowei Jiang, Xudong Liu, Parham Aarabi, David B. Lindell

分类: cs.CV, cs.AI

发布日期: 2024-05-28

备注: Accepted at CVPR 2024

💡 一句话要点

SCE-MAE：基于掩码自编码器的选择性对应增强，用于自监督地标估计

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自监督学习 地标估计 掩码自编码器 特征对应 密度峰值聚类

📋 核心要点

现有自监督地标估计方法忽略了任务的密集预测特性，依赖于实例级SSL和内存密集型超列结构。
SCE-MAE利用区域级SSL的MAE，直接在原始特征图上操作，并通过CARB选择性地增强局部对应关系。
实验表明，SCE-MAE在landmark匹配和检测任务上显著优于现有SOTA方法，分别提升约20%-44%和9%-15%。

📝 摘要（中文）

自监督地标估计是一项具有挑战性的任务，它需要在缺乏标注数据的情况下形成局部不同的特征表示，以识别稀疏的面部地标。为了解决这个问题，现有的最先进方法(1)从使用实例级自监督学习(SSL)范式训练的骨干网络中提取粗糙特征，忽略了任务的密集预测性质，(2)将它们聚合到内存密集型的超列结构中，以及(3)监督轻量级投影网络，以简单地建立所有空间特征对之间的完整局部对应关系。在本文中，我们介绍了一种名为SCE-MAE的框架，该框架(1)利用MAE，一种区域级的SSL方法，它自然更适合地标预测任务，(2)在原始特征图上操作，而不是在昂贵的超列上操作，以及(3)采用对应近似和细化块(CARB)，该块利用简单的密度峰值聚类算法和我们提出的局部约束排斥损失，直接优化仅选择的局部对应关系。通过大量的实验，我们证明了SCE-MAE是非常有效和鲁棒的，在landmark匹配任务上优于现有的SOTA方法约20%-44%，在landmark检测任务上优于约9%-15%。

🔬 方法详解

问题定义：论文旨在解决自监督地标估计问题，即在没有标注数据的情况下，如何准确地预测图像中的关键点位置。现有方法主要存在三个痛点：一是使用实例级别的自监督学习方法提取特征，忽略了地标估计任务的密集预测特性；二是依赖于计算和内存开销大的超列特征；三是简单地建立所有空间特征之间的对应关系，效率较低。

核心思路：论文的核心思路是利用掩码自编码器（MAE）进行区域级别的自监督学习，从而更好地适应地标预测任务的密集预测特性。同时，避免使用超列特征，直接在原始特征图上进行操作，降低计算复杂度。此外，通过选择性地增强局部对应关系，提高地标估计的准确性和效率。

技术框架：SCE-MAE框架主要包含三个部分：首先，使用MAE进行预训练，提取图像的特征表示；然后，将提取的特征图输入到Correspondence Approximation and Refinement Block (CARB)中；最后，利用CARB输出的地标预测结果进行评估。CARB是该框架的核心模块，负责选择性地增强局部对应关系。

关键创新：该论文的关键创新在于提出了Correspondence Approximation and Refinement Block (CARB)，该模块利用密度峰值聚类算法和Locality-Constrained Repellence Loss，直接优化选择的局部对应关系。与现有方法的全连接方式不同，CARB只关注最相关的局部特征，从而提高了效率和准确性。

关键设计：CARB模块的关键设计包括：1) 使用密度峰值聚类算法选择具有代表性的局部特征；2) 提出Locality-Constrained Repellence Loss，该损失函数鼓励选择的局部特征具有区分性，同时保持其局部一致性。具体的参数设置和网络结构细节在论文中有详细描述，例如密度峰值聚类算法的参数选择，以及Locality-Constrained Repellence Loss的权重设置。

🖼️ 关键图片

📊 实验亮点

SCE-MAE在landmark匹配任务上超越现有SOTA方法约20%-44%，在landmark检测任务上提升约9%-15%。实验结果表明，该方法在自监督地标估计任务中具有显著优势，尤其是在数据标注稀缺的情况下，能够有效提升地标预测的准确性和鲁棒性。

🎯 应用场景

该研究成果可广泛应用于人脸识别、表情分析、姿态估计等领域。在医疗影像分析中，也可用于器官或病灶的自动定位。此外，在机器人导航和目标跟踪等领域也具有潜在的应用价值，能够提升系统的自主性和鲁棒性。

📄 摘要（原文）

Self-supervised landmark estimation is a challenging task that demands the formation of locally distinct feature representations to identify sparse facial landmarks in the absence of annotated data. To tackle this task, existing state-of-the-art (SOTA) methods (1) extract coarse features from backbones that are trained with instance-level self-supervised learning (SSL) paradigms, which neglect the dense prediction nature of the task, (2) aggregate them into memory-intensive hypercolumn formations, and (3) supervise lightweight projector networks to naively establish full local correspondences among all pairs of spatial features. In this paper, we introduce SCE-MAE, a framework that (1) leverages the MAE, a region-level SSL method that naturally better suits the landmark prediction task, (2) operates on the vanilla feature map instead of on expensive hypercolumns, and (3) employs a Correspondence Approximation and Refinement Block (CARB) that utilizes a simple density peak clustering algorithm and our proposed Locality-Constrained Repellence Loss to directly hone only select local correspondences. We demonstrate through extensive experiments that SCE-MAE is highly effective and robust, outperforming existing SOTA methods by large margins of approximately 20%-44% on the landmark matching and approximately 9%-15% on the landmark detection tasks.

SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理