CSPCL: Category Semantic Prior Contrastive Learning for Deformable DETR-Based Prohibited Item Detectors

📄 arXiv: 2501.16665v2 📥 PDF

作者: Mingyuan Li, Tong Jia, Hao Wang, Bowen Ma, Hui Lu, Shiyi Guo, Da Cai, Dongyue Chen

分类: cs.CV

发布日期: 2025-01-28 (更新: 2025-11-11)

备注: 22 pages, 5 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出类别语义先验对比学习(CSPCL),提升Deformable DETR在X光违禁品检测中的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 违禁品检测 X光图像 Deformable DETR 对比学习 类别语义先验

📋 核心要点

  1. X光图像的重叠现象导致前景-背景特征耦合,使得通用目标检测器在违禁品检测中表现不佳。
  2. CSPCL通过类别语义先验对比学习,对齐类别原型和内容查询,校正语义信息,增强模型对前景特征的敏感性。
  3. 实验表明,CSPCL在多个数据集上显著提升了Deformable DETR等模型的性能,且不增加推理复杂度。

📝 摘要(中文)

本文提出了一种类别语义先验对比学习(CSPCL)机制,用于解决X光图像违禁品检测中,因重叠现象导致的前景-背景特征耦合问题。CSPCL通过将分类器感知的类别原型与内容查询对齐,来校正和补充缺失的语义信息,从而增强模型对前景特征的敏感性。为了实现这种对齐,设计了一种特定的对比损失CSP loss,它由类内截断吸引(ITA)损失和类间自适应排斥(IAR)损失组成,性能优于经典对比损失。ITA损失利用类别原型来吸引类内内容查询,并通过梯度截断函数保留必要的类内多样性。IAR损失采用类别原型自适应地排斥类间内容查询,排斥强度由原型-原型相似性缩放,从而提高类间可区分性,尤其是在相似类别之间。CSPCL具有通用性,可以轻松集成到基于Deformable DETR的模型中。在PIXray、OPIXray、PIDray和CLCXray数据集上的大量实验表明,CSPCL在不增加推理复杂性的情况下,显著提高了各种最先进模型的性能。

🔬 方法详解

问题定义:X光图像中的违禁品检测面临着严重的挑战,由于X光的穿透性,图像中物体之间存在大量的重叠,导致前景和背景特征难以区分,这使得传统的为自然图像设计的检测器性能显著下降。现有的方法难以有效解决这种前景-背景特征耦合问题,导致检测精度不高。

核心思路:本文的核心思路是通过引入类别语义先验知识,来指导模型学习更具区分性的特征表示。具体来说,通过对比学习的方式,将内容查询(content queries)与类别原型(class prototypes)对齐,从而校正和补充内容查询中缺失的语义信息,增强模型对前景特征的敏感性。这种方法旨在利用类别信息来解耦前景和背景特征,提高检测精度。

技术框架:CSPCL可以集成到基于Deformable DETR的模型中。其主要流程包括:首先,利用Deformable DETR提取图像的特征表示和内容查询。然后,计算每个类别的类别原型。接着,使用CSP loss(包含ITA loss和IAR loss)来对齐内容查询和类别原型。最后,利用对齐后的内容查询进行目标检测。整个框架在训练阶段进行对比学习,在推理阶段不增加额外的计算负担。

关键创新:本文最重要的技术创新点在于提出了类别语义先验对比学习(CSPCL)机制,以及专门设计的CSP loss。与传统的对比学习方法不同,CSPCL不仅仅关注样本之间的相似性,还考虑了类别语义信息,通过类别原型来指导特征学习。CSP loss中的ITA loss和IAR loss分别从类内和类间两个角度优化特征表示,从而提高模型的区分能力。

关键设计:CSP loss是CSPCL的关键组成部分,它包含两个部分:ITA loss和IAR loss。ITA loss利用类别原型吸引类内内容查询,并通过梯度截断函数保留类内多样性。IAR loss采用类别原型自适应地排斥类间内容查询,排斥强度由原型-原型相似性缩放。这种自适应的排斥策略可以更好地处理相似类别之间的区分问题。梯度截断函数的设计是为了防止模型过度拟合类别原型,从而保留一定的类内差异性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CSPCL在PIXray、OPIXray、PIDray和CLCXray等多个X光图像数据集上显著提升了Deformable DETR等模型的性能。例如,在PIXray数据集上,CSPCL将基线模型的mAP提升了多个百分点,并且在不增加推理复杂度的前提下,达到了state-of-the-art的性能。这些结果验证了CSPCL的有效性和通用性。

🎯 应用场景

该研究成果可广泛应用于安检领域,例如机场、火车站、海关等场所的违禁品检测。通过提高X光图像违禁品检测的准确率,可以有效提升安全检查的效率和可靠性,减少安全隐患。此外,该方法也可以推广到其他需要处理复杂背景和重叠物体的目标检测任务中,具有重要的实际应用价值和潜在的社会效益。

📄 摘要(原文)

Prohibited item detection based on X-ray images is one of the most effective security inspection methods. However, the foreground-background feature coupling caused by the overlapping phenomenon specific to X-ray images makes general detectors designed for natural images perform poorly. To address this issue, we propose a Category Semantic Prior Contrastive Learning (CSPCL) mechanism, which aligns the class prototypes perceived by the classifier with the content queries to correct and supplement the missing semantic information responsible for classification, thereby enhancing the model sensitivity to foreground features. To achieve this alignment, we design a specific contrastive loss, CSP loss, which comprises the Intra-Class Truncated Attraction (ITA) loss and the Inter-Class Adaptive Repulsion (IAR) loss, and outperforms classic contrastive losses. Specifically, the ITA loss leverages class prototypes to attract intra-class content queries and preserves essential intra-class diversity via a gradient truncation function. The IAR loss employs class prototypes to adaptively repel inter-class content queries, with the repulsion strength scaled by prototype-prototype similarity, thereby improving inter-class discriminability, especially among similar categories. CSPCL is general and can be easily integrated into Deformable DETR-based models. Extensive experiments on the PIXray, OPIXray, PIDray, and CLCXray datasets demonstrate that CSPCL significantly enhances the performance of various state-of-the-art models without increasing inference complexity. The code is publicly available at https://github.com/Limingyuan001/CSPCL.