GSA-YOLO: A High-Efficiency Framework via Structured Sparsity and Adaptive Knowledge Distillation for Real-Time X-ray Security Inspection
作者: Jiahao Kong
分类: cs.CV
发布日期: 2026-05-20
备注: 41 pages, 8 figures, submitted to Scientific Reports
💡 一句话要点
GSA-YOLO:面向X射线安检的结构稀疏与自适应知识蒸馏高效框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: X射线安检 目标检测 YOLOv8 结构稀疏 知识蒸馏 模型压缩 实时检测
📋 核心要点
- 现有X射线安检模型难以平衡严重遮挡、复杂背景和实时性要求,导致检测精度和速度难以兼顾。
- GSA-YOLO通过结构稀疏和自适应知识蒸馏,在YOLOv8n基础上构建轻量级框架,提升检测鲁棒性和推理效率。
- 实验表明,GSA-YOLO在HiXray和PIDray数据集上分别实现了2.4%和1.8%的mAP提升,速度达到189.62 FPS。
📝 摘要(中文)
针对X射线安检中存在的严重遮挡、复杂杂波和严格速度要求等挑战,本文提出了一种名为GSA-YOLO的新型轻量级框架。该框架基于YOLOv8n架构,旨在提高检测的鲁棒性和推理效率。GSA-YOLO通过三个核心组件策略性地整合了结构稀疏性和自适应知识迁移:应用于网络颈部的Group Lasso (GL) 用于鲁棒的特征提取;应用于检测头的稀疏结构选择 (SSS) 用于显著的模型瘦身;以及自适应知识蒸馏 (Ada-KD) 机制用于全面的精度恢复。这种综合方法协同增强了特征表示,同时剪枝了冗余通道,从而在不牺牲性能的情况下最大化了模型效率。在HiXray和PIDray数据集上的严格评估证实了GSA-YOLO的综合能力,实现了189.62 FPS的领先推理速度,同时将计算成本从8.7G降低到8.0G。关键的是,GSA-YOLO在HiXray和PIDray上分别获得了0.531和0.679的mAP50:95结果,分别比基线提高了2.4%和1.8%。与其他模型相比,GSA-YOLO在保持计算效率的同时表现出更高的准确性,使其成为实际X射线安检的一个有希望的解决方案。
🔬 方法详解
问题定义:X射线安检场景需要快速准确地检测违禁品,但现有模型在处理复杂背景、目标遮挡以及满足实时性要求方面存在挑战。模型需要在精度和速度之间做出权衡,轻量化模型往往牺牲精度,而高精度模型则难以满足实时性需求。
核心思路:GSA-YOLO的核心思路是通过结构稀疏化减少模型参数和计算量,同时利用自适应知识蒸馏弥补稀疏化带来的精度损失。通过Group Lasso进行特征提取的稀疏化,通过Sparse Structure Selection进行检测头的稀疏化,最后通过自适应知识蒸馏恢复精度。这种方法旨在在不显著降低精度的前提下,大幅提升模型的推理速度。
技术框架:GSA-YOLO的整体架构基于YOLOv8n,主要包含三个核心模块:1) Group Lasso (GL):应用于YOLOv8n的neck部分,通过组 Lasso 正则化实现特征通道的稀疏化,从而减少冗余特征。2) Sparse Structure Selection (SSS):应用于检测头,通过选择重要的网络结构,进一步减少模型的参数量和计算量。3) Adaptive Knowledge Distillation (Ada-KD):利用教师模型的知识指导学生模型的训练,弥补稀疏化带来的精度损失,并根据不同层的重要性自适应地调整蒸馏权重。
关键创新:GSA-YOLO的关键创新在于将结构稀疏化和自适应知识蒸馏相结合,并针对X射线安检场景进行了优化。与传统的模型压缩方法相比,GSA-YOLO的结构稀疏化能够更有效地减少模型的计算量,而自适应知识蒸馏则能够更好地保持模型的精度。此外,针对X射线图像的特点,GSA-YOLO在损失函数和网络结构上进行了一些调整,以提高模型的鲁棒性。
关键设计:Group Lasso使用L1范数对特征通道进行分组正则化,鼓励整个通道被剪枝。Sparse Structure Selection通过评估不同网络结构的贡献度,选择对模型性能影响最大的结构保留。Adaptive Knowledge Distillation使用动态权重调整策略,根据学生模型和教师模型在不同层的差异,自适应地调整蒸馏损失的权重。损失函数包括检测损失(如CIoU Loss)和蒸馏损失,通过加权求和进行优化。
🖼️ 关键图片
📊 实验亮点
GSA-YOLO在HiXray和PIDray数据集上取得了显著的性能提升。在HiXray数据集上,GSA-YOLO的mAP50:95达到了0.531,比YOLOv8n基线提高了2.4%。在PIDray数据集上,GSA-YOLO的mAP50:95达到了0.679,比基线提高了1.8%。同时,GSA-YOLO的推理速度达到了189.62 FPS,计算成本降低到8.0G。
🎯 应用场景
GSA-YOLO主要应用于X射线安检领域,例如机场、火车站、海关等场所的违禁品检测。该研究成果可以有效提高安检效率,降低安全风险。此外,该方法也可以推广到其他需要实时目标检测的场景,例如工业质检、智能交通等。
📄 摘要(原文)
X-ray security inspection requires accurate real-time detection of prohibited items, but existing models often struggle to balance the challenges of severe occlusion, complex clutter, and strict speed requirements. To overcome these challenges, this paper proposes GSA-YOLO, a novel lightweight framework built upon the YOLOv8n architecture, specifically engineered to enhance detection robustness and inference efficiency. GSA-YOLO strategically integrates structured sparsity and adaptive knowledge transfer through three core components: Group Lasso (GL) applied to the network neck for robust feature extraction; Sparse Structure Selection (SSS) applied to the detection head for significant model slimming; and an Adaptive Knowledge Distillation (Ada-KD) mechanism for comprehensive accuracy recovery. This integrated approach synergistically enhances feature representation while pruning redundant channels, maximizing model efficiency without sacrificing performance. Rigorous evaluations on the HiXray and PIDray datasets confirm GSA-YOLO's comprehensive capability, achieving a leading inference speed of 189.62 FPS, accompanied by a reduction in computational cost from 8.7G to 8.0G. Crucially, GSA-YOLO secures mAP50:95 results of 0.531 and 0.679 on HiXray and PIDray, demonstrating 2.4% and 1.8% improvements over the baseline, respectively. Compared to other models, GSA-YOLO exhibits enhanced accuracy while maintaining computational efficiency, making it a promising solution for practical X-ray security inspection.