STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection

📄 arXiv: 2504.02823v1 📥 PDF

作者: Divya Velayudhan, Abdelfatah Ahmed, Mohamad Alansari, Neha Gour, Abderaouf Behouch, Taimur Hassan, Syed Talal Wasim, Nabil Maalej, Muzammal Naseer, Juergen Gall, Mohammed Bennamoun, Ernesto Damiani, Naoufel Werghi

分类: cs.CV, eess.IV

发布日期: 2025-04-03

备注: Accepted at CVPR 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出STING-BEE,用于现实X光行李安检的视觉-语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: X光安检 视觉-语言模型 多模态学习 威胁检测 跨域泛化

📋 核心要点

  1. 现有X光安检数据集缺乏真实性和复杂性,且方法受限于预定义标签,难以应对新型威胁。
  2. 提出STCray多模态数据集,包含图像-文本配对扫描,并训练领域感知的视觉AI助手STING-BEE。
  3. STING-BEE在场景理解、威胁定位、视觉问答等任务上表现出色,并在跨域泛化方面达到SOTA。

📝 摘要(中文)

计算机辅助安检系统(CAS)的进步对于提高X光行李扫描中安全威胁的检测至关重要。然而,当前数据集在表示真实、复杂的威胁和隐藏策略方面存在局限性,并且现有方法受到具有预定义标签的封闭集范式的约束。为了解决这些挑战,我们引入了STCray,这是第一个多模态X光行李安全数据集,包含46,642个图像-文本配对的扫描,涵盖21个威胁类别,使用机场安全X光扫描仪生成。STCray是使用我们专门的协议精心开发的,该协议确保领域感知、连贯的文本描述,从而产生X光行李安全中的多模态指令遵循数据。这使我们能够训练一个名为STING-BEE的领域感知视觉AI助手,该助手支持一系列视觉-语言任务,包括场景理解、指代威胁定位、视觉基础和视觉问答(VQA),为X光行李安全中的多模态学习建立了新的基线。此外,STING-BEE在跨域设置中表现出最先进的泛化能力。代码、数据和模型可在https://divs1159.github.io/STING-BEE/获取。

🔬 方法详解

问题定义:现有X光行李安检系统依赖的数据集难以模拟真实世界中复杂多变的威胁和隐藏方式,而且现有方法通常采用封闭集范式,即只能识别预先定义的威胁类型,无法有效应对新型或未知的威胁。这限制了安检系统的鲁棒性和泛化能力。

核心思路:论文的核心思路是构建一个更真实、更全面的多模态数据集STCray,并在此基础上训练一个领域感知的视觉-语言模型STING-BEE。通过图像和文本的联合学习,STING-BEE能够更好地理解X光图像中的场景,定位威胁,并回答相关问题,从而提高安检效率和准确性。这种设计旨在打破封闭集范式的限制,使系统能够更好地适应新的威胁类型。

技术框架:STING-BEE的整体框架包含以下几个关键部分:首先,利用STCray数据集进行训练,该数据集包含X光图像和对应的文本描述。其次,STING-BEE模型本身采用视觉-语言模型架构,例如基于Transformer的模型,能够同时处理图像和文本信息。模型通过多模态融合,学习图像和文本之间的关联关系。最后,STING-BEE可以执行多种视觉-语言任务,包括场景理解、指代威胁定位、视觉基础和视觉问答(VQA)。

关键创新:论文的关键创新在于以下几个方面:一是构建了STCray数据集,这是第一个专门针对X光行李安检的多模态数据集,具有真实性和多样性。二是提出了STING-BEE模型,该模型能够有效利用多模态信息,执行多种视觉-语言任务,并在跨域泛化方面表现出色。三是打破了封闭集范式的限制,使安检系统能够更好地应对新型威胁。

关键设计:论文在数据集构建方面,采用了专门的协议,确保文本描述的领域感知性和连贯性。在模型训练方面,可能采用了特定的损失函数,例如对比学习损失或跨模态对齐损失,以促进图像和文本之间的有效融合。具体的网络结构可能采用了预训练的视觉-语言模型,例如CLIP或ALIGN,并在此基础上进行了微调,以适应X光行李安检的特定领域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STING-BEE在X光行李安检的多个视觉-语言任务上取得了显著成果,包括场景理解、指代威胁定位、视觉基础和视觉问答(VQA)。尤其在跨域泛化方面,STING-BEE表现出最先进的性能,表明其具有很强的鲁棒性和适应性。具体性能数据和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可应用于机场、火车站等安检场景,提高违禁品检测的准确性和效率。STING-BEE模型能够辅助安检人员快速识别潜在威胁,减少人工干预,提升安检效率。未来,该技术还可扩展到其他安全领域,例如工业质检、医疗影像分析等,具有广阔的应用前景。

📄 摘要(原文)

Advancements in Computer-Aided Screening (CAS) systems are essential for improving the detection of security threats in X-ray baggage scans. However, current datasets are limited in representing real-world, sophisticated threats and concealment tactics, and existing approaches are constrained by a closed-set paradigm with predefined labels. To address these challenges, we introduce STCray, the first multimodal X-ray baggage security dataset, comprising 46,642 image-caption paired scans across 21 threat categories, generated using an X-ray scanner for airport security. STCray is meticulously developed with our specialized protocol that ensures domain-aware, coherent captions, that lead to the multi-modal instruction following data in X-ray baggage security. This allows us to train a domain-aware visual AI assistant named STING-BEE that supports a range of vision-language tasks, including scene comprehension, referring threat localization, visual grounding, and visual question answering (VQA), establishing novel baselines for multi-modal learning in X-ray baggage security. Further, STING-BEE shows state-of-the-art generalization in cross-domain settings. Code, data, and models are available at https://divs1159.github.io/STING-BEE/.