Exploring Stronger Transformer Representation Learning for Occluded Person Re-Identification
作者: Zhangjian Ji, Donglin Cheng, Kai Feng
分类: cs.CV
发布日期: 2024-10-21 (更新: 2024-10-23)
💡 一句话要点
提出SSSC-TransReID,增强Transformer在遮挡场景下行人重识别的特征表达能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 行人重识别 Transformer 自监督学习 对比学习 遮挡处理
📋 核心要点
- 行人重识别面临遮挡、姿态变化和视角差异等复杂因素,如何提取更强的特征表示仍然是一个挑战。
- 论文提出SSSC-TransReID框架,通过自监督对比学习分支增强特征表示,无需负样本或额外预训练。
- 实验结果表明,该模型在多个基准数据集上取得了优异的Re-ID性能,显著优于现有方法。
📝 摘要(中文)
本文提出了一种新颖的基于Transformer的自监督与监督相结合的行人重识别框架,名为SSSC-TransReID。与通用的基于Transformer的行人重识别模型不同,我们设计了一个自监督对比学习分支,该分支无需负样本或额外的预训练即可增强行人重识别的特征表示。为了训练对比学习分支,我们还提出了一种新的随机矩形掩码策略来模拟真实场景中的遮挡,从而增强遮挡的特征表示。最后,我们利用联合训练损失函数将带ID标签的监督学习和无负样本的自监督对比学习的优势结合起来,从而增强了我们的模型挖掘更强判别特征的能力,尤其是在遮挡方面。在多个基准数据集上的大量实验结果表明,我们提出的模型始终获得优越的Re-ID性能,并且在平均精度均值(mAP)和Rank-1精度上均优于最先进的ReID方法。
🔬 方法详解
问题定义:行人重识别任务旨在跨摄像头匹配行人身份。现有方法在处理遮挡问题时,特征表达能力不足,导致匹配精度下降。现有基于Transformer的方法也未能有效解决遮挡带来的挑战。
核心思路:论文的核心思路是通过自监督对比学习,增强模型在遮挡情况下的特征表达能力。通过模拟真实场景中的遮挡,迫使模型学习更鲁棒的特征,从而提高重识别的准确率。
技术框架:SSSC-TransReID框架包含两个主要分支:一个基于Transformer的监督学习分支,利用ID标签进行训练;另一个是自监督对比学习分支,通过随机矩形掩码策略模拟遮挡,并进行对比学习。两个分支通过联合训练损失函数进行优化。
关键创新:该论文的关键创新在于提出了一个自监督对比学习分支,该分支无需负样本或额外的预训练即可增强行人重识别的特征表示。同时,提出的随机矩形掩码策略能够有效地模拟真实场景中的遮挡,从而增强模型对遮挡的鲁棒性。
关键设计:随机矩形掩码策略:在输入图像上随机生成多个矩形掩码,模拟遮挡。自监督对比学习损失函数:用于训练自监督分支,目标是使同一行人在不同遮挡情况下的特征表示尽可能接近。联合训练损失函数:结合了监督学习损失和自监督对比学习损失,平衡两个分支的训练。
🖼️ 关键图片
📊 实验亮点
该模型在多个基准数据集上取得了显著的性能提升。例如,在Market-1501数据集上,mAP和Rank-1精度均超过了现有最先进的方法。实验结果表明,该模型在处理遮挡问题时具有更强的鲁棒性和更高的准确率。
🎯 应用场景
该研究成果可应用于智能安防、智慧城市等领域,例如在监控视频中进行行人追踪和身份识别。通过提高在遮挡情况下的行人重识别准确率,可以有效提升安防系统的可靠性和智能化水平,具有重要的实际应用价值。
📄 摘要(原文)
Due to some complex factors (e.g., occlusion, pose variation and diverse camera perspectives), extracting stronger feature representation in person re-identification remains a challenging task. In this paper, we proposed a novel self-supervision and supervision combining transformer-based person re-identification framework, namely SSSC-TransReID. Different from the general transformer-based person re-identification models, we designed a self-supervised contrastive learning branch, which can enhance the feature representation for person re-identification without negative samples or additional pre-training. In order to train the contrastive learning branch, we also proposed a novel random rectangle mask strategy to simulate the occlusion in real scenes, so as to enhance the feature representation for occlusion. Finally, we utilized the joint-training loss function to integrate the advantages of supervised learning with ID tags and self-supervised contrastive learning without negative samples, which can reinforce the ability of our model to excavate stronger discriminative features, especially for occlusion. Extensive experimental results on several benchmark datasets show our proposed model obtains superior Re-ID performance consistently and outperforms the state-of-the-art ReID methods by large margins on the mean average accuracy (mAP) and Rank-1 accuracy.