A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation
作者: Yiping Zhang, Yuntao Shou, Tao Meng, Wei Ai, Keqin Li
分类: cs.CV, cs.CL
发布日期: 2024-07-23
备注: 20 pages, 9 figures
💡 一句话要点
提出多视角掩码对比学习图卷积网络用于人脸年龄估计
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 年龄估计 图卷积神经网络 对比学习 人脸识别 多视角学习
📋 核心要点
- 现有基于CNN和Transformer的年龄估计方法在建模复杂不规则人脸结构时存在不灵活性和冗余。
- 提出MMCL-GCN,利用图结构表示人脸,并设计多视角掩码对比学习机制来学习人脸的结构和语义信息。
- 在Adience、MORPH-II和LAP-2016等数据集上的实验表明,MMCL-GCN能有效降低年龄估计的误差。
📝 摘要(中文)
本文提出了一种多视角掩码对比学习图卷积神经网络(MMCL-GCN)用于年龄估计。年龄估计旨在利用面部特征预测人的年龄,广泛应用于公共安全、营销和身份识别等领域。现有的基于CNN和Transformer的方法在建模复杂不规则结构时存在不灵活性和冗余。MMCL-GCN网络包含特征提取阶段和年龄估计阶段。在特征提取阶段,引入图结构构建人脸图像作为输入,并设计多视角掩码对比学习(MMCL)机制,学习人脸图像的复杂结构和语义信息。该机制采用非对称Siamese网络架构,利用在线编码器-解码器结构从原始图中重建缺失信息,并利用目标编码器学习对比学习的潜在表示。此外,为了促进两种学习机制更好地兼容和互补,采用了两种增强策略并优化了联合损失。在年龄估计阶段,设计了一个具有身份映射的多层极限学习机(ML-IELM),以充分利用在线编码器提取的特征。然后,基于ML-IELM构建分类器和回归器,用于识别年龄分组间隔并准确估计最终年龄。大量实验表明,MMCL-GCN可以有效降低Adience、MORPH-II和LAP-2016等基准数据集上的年龄估计误差。
🔬 方法详解
问题定义:年龄估计旨在根据人脸图像预测个体的年龄。现有方法,特别是基于CNN和Transformer的方法,在处理面部关键点等不规则结构时,缺乏灵活性,并且可能存在冗余计算,导致年龄估计精度不高。
核心思路:本文的核心思路是将人脸图像表示为图结构,并利用图卷积神经网络(GCN)来学习人脸的结构信息。通过引入多视角掩码对比学习(MMCL)机制,增强GCN对人脸图像复杂结构和语义信息的学习能力,从而提高年龄估计的准确性。
技术框架:MMCL-GCN网络包含两个主要阶段:特征提取阶段和年龄估计阶段。在特征提取阶段,首先将人脸图像构建为图结构,然后利用MMCL机制学习图的表示。MMCL采用非对称Siamese网络,包含在线编码器-解码器和目标编码器。在线编码器-解码器用于重建被掩码的图节点信息,目标编码器用于学习对比学习的潜在表示。在年龄估计阶段,使用多层极限学习机(ML-IELM)对提取的特征进行分类和回归,从而实现年龄估计。
关键创新:该论文的关键创新在于提出了多视角掩码对比学习(MMCL)机制,并将其与图卷积神经网络(GCN)相结合。MMCL通过掩码部分图节点并重建,以及对比学习的方式,增强了GCN对人脸图像结构和语义信息的学习能力。与传统的CNN和Transformer方法相比,MMCL-GCN能够更好地处理人脸图像的不规则结构,从而提高年龄估计的准确性。
关键设计:MMCL机制采用非对称Siamese网络结构,包含在线编码器-解码器和目标编码器。在线编码器-解码器使用图卷积网络进行编码和解码,损失函数包括重建损失和对比损失。为了促进两种学习机制的兼容和互补,采用了两种数据增强策略。年龄估计阶段,ML-IELM采用身份映射,以充分利用特征提取阶段学习到的特征。损失函数包括分类损失和回归损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MMCL-GCN在Adience、MORPH-II和LAP-2016等基准数据集上取得了显著的性能提升。例如,在Adience数据集上,MMCL-GCN的平均绝对误差(MAE)相较于现有方法有所降低,表明该方法在年龄估计任务中具有较强的竞争力。
🎯 应用场景
该研究成果可应用于公共安全领域,例如通过人脸识别技术辅助身份验证和犯罪嫌疑人追踪。在营销领域,可以根据年龄段进行精准广告投放。此外,该技术还可用于娱乐、社交媒体等领域,例如为用户提供个性化的内容推荐。
📄 摘要(原文)
The age estimation task aims to use facial features to predict the age of people and is widely used in public security, marketing, identification, and other fields. However, the features are mainly concentrated in facial keypoints, and existing CNN and Transformer-based methods have inflexibility and redundancy for modeling complex irregular structures. Therefore, this paper proposes a Multi-view Mask Contrastive Learning Graph Convolutional Neural Network (MMCL-GCN) for age estimation. Specifically, the overall structure of the MMCL-GCN network contains a feature extraction stage and an age estimation stage. In the feature extraction stage, we introduce a graph structure to construct face images as input and then design a Multi-view Mask Contrastive Learning (MMCL) mechanism to learn complex structural and semantic information about face images. The learning mechanism employs an asymmetric siamese network architecture, which utilizes an online encoder-decoder structure to reconstruct the missing information from the original graph and utilizes the target encoder to learn latent representations for contrastive learning. Furthermore, to promote the two learning mechanisms better compatible and complementary, we adopt two augmentation strategies and optimize the joint losses. In the age estimation stage, we design a Multi-layer Extreme Learning Machine (ML-IELM) with identity mapping to fully use the features extracted by the online encoder. Then, a classifier and a regressor were constructed based on ML-IELM, which were used to identify the age grouping interval and accurately estimate the final age. Extensive experiments show that MMCL-GCN can effectively reduce the error of age estimation on benchmark datasets such as Adience, MORPH-II, and LAP-2016.