LPCAN: Lightweight Pyramid Cross-Attention Network for Rail Surface Defect Detection Using RGB-D Data
作者: Jackie Alex, Guoqiang Huan
分类: cs.CV
发布日期: 2026-01-14
💡 一句话要点
提出LPCAN以解决铁路表面缺陷检测中的高复杂度问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 铁路缺陷检测 轻量级网络 多模态融合 深度学习 计算机视觉 模型压缩 RGB-D数据
📋 核心要点
- 现有的铁路缺陷检测方法面临高计算复杂度和参数过多的问题,导致实际应用受限。
- 本文提出的LPCANet通过结合RGB-D数据和轻量级网络架构,旨在提高缺陷检测的效率和准确性。
- 实验结果显示,LPCANet在多个数据集上表现优异,显著提升了检测性能,验证了其有效性和通用性。
📝 摘要(中文)
本文针对现有基于视觉的铁路缺陷检测方法的局限性,包括高计算复杂度、过多的参数数量和亚优化的准确性,提出了一种轻量级金字塔交叉注意力网络(LPCANet),利用RGB-D数据实现高效且准确的缺陷识别。该架构将MobileNetv2作为RGB特征提取的主干,结合轻量级金字塔模块(LPM)进行深度处理,采用交叉注意力机制(CAM)进行多模态融合,并通过空间特征提取器(SFE)增强结构分析。对三个无监督RGB-D铁路数据集的综合评估表明,LPCANet以仅9.90百万参数、2.50 G FLOPs和162.60 fps的推理速度实现了最先进的性能。与18种现有方法相比,LPCANet在$S_α$、IOU和MAE上分别提升了1.48%、0.86%和1.77%。
🔬 方法详解
问题定义:本文旨在解决现有铁路表面缺陷检测方法在计算复杂度和准确性上的不足,尤其是在处理RGB-D数据时的高参数量和低效率问题。
核心思路:LPCANet通过引入轻量级金字塔结构和交叉注意力机制,优化了多模态数据的融合与处理,旨在实现高效的缺陷检测。
技术框架:LPCANet的整体架构包括RGB特征提取的MobileNetv2主干、轻量级金字塔模块(LPM)用于深度数据处理、交叉注意力机制(CAM)实现多模态融合,以及空间特征提取器(SFE)用于增强结构分析。
关键创新:LPCANet的主要创新在于其轻量级设计和高效的多模态融合策略,显著减少了模型参数和计算量,同时提升了检测精度。
关键设计:在网络结构上,LPCANet采用了MobileNetv2作为主干网络,结合轻量级金字塔模块和交叉注意力机制,确保了在保持高效性的同时,能够处理复杂的深度信息。
🖼️ 关键图片
📊 实验亮点
LPCANet在三个无监督RGB-D铁路数据集上进行了全面评估,结果显示其在参数量仅为9.90百万、计算量为2.50 G FLOPs的情况下,达到了162.60 fps的推理速度。与18种现有方法相比,LPCANet在$S_α$、IOU和MAE上分别提升了1.48%、0.86%和1.77%,展现了显著的性能优势。
🎯 应用场景
该研究的潜在应用领域包括铁路运输的安全检测和维护,能够有效识别和定位铁路表面的缺陷,提升铁路运营的安全性和可靠性。未来,该方法还可扩展到其他工业缺陷检测场景,具有广泛的实际价值。
📄 摘要(原文)
This paper addresses the limitations of current vision-based rail defect detection methods, including high computational complexity, excessive parameter counts, and suboptimal accuracy. We propose a Lightweight Pyramid Cross-Attention Network (LPCANet) that leverages RGB-D data for efficient and accurate defect identification. The architecture integrates MobileNetv2 as a backbone for RGB feature extraction with a lightweight pyramid module (LPM) for depth processing, coupled with a cross-attention mechanism (CAM) for multimodal fusion and a spatial feature extractor (SFE) for enhanced structural analysis. Comprehensive evaluations on three unsupervised RGB-D rail datasets (NEU-RSDDS-AUG, RSDD-TYPE1, RSDD-TYPE2) demonstrate that LPCANet achieves state-of-the-art performance with only 9.90 million parameters, 2.50 G FLOPs, and 162.60 fps inference speed. Compared to 18 existing methods, LPCANet shows significant improvements, including +1.48\% in $S_α$, +0.86\% in IOU, and +1.77\% in MAE over the best-performing baseline. Ablation studies confirm the critical roles of CAM and SFE, while experiments on non-rail datasets (DAGM2007, MT, Kolektor-SDD2) validate its generalization capability. The proposed framework effectively bridges traditional and deep learning approaches, offering substantial practical value for industrial defect inspection. Future work will focus on further model compression for real-time deployment.