Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains

📄 arXiv: 2603.12624v1 📥 PDF

作者: Guodong Sun, Qihang Liang, Xingyu Pan, Moyun Liu, Yang Zhang

分类: cs.CV, eess.IV

发布日期: 2026-03-13

备注: 14 pages, 9 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于自提示轻量级基础模型的货运列车故障检测实例分割框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 实例分割 故障检测 货运列车 基础模型 自提示学习

📋 核心要点

  1. 传统基于卷积神经网络和Transformer的实例分割方法在货运列车故障检测中泛化性差,边界精度有限。
  2. 提出自提示实例分割框架,通过自提示生成模块,将Segment Anything Model知识迁移到货运列车故障检测任务。
  3. 采用Tiny Vision Transformer降低计算成本,并在真实数据集上验证了方法的有效性,APbox和APmask分别达到74.6和74.2。

📝 摘要(中文)

针对智能交通系统维护中货运列车视觉故障检测面临的复杂环境、重复结构、以及安全关键区域的遮挡或污染等挑战,本文提出了一种轻量级的自提示实例分割框架。该方法利用Segment Anything Model,引入自提示生成模块自动生成任务特定的提示,从而实现从基础模型到领域特定检测任务的有效知识迁移。此外,采用Tiny Vision Transformer骨干网络降低计算成本,使该框架适用于铁路监控系统中边缘设备的实时部署。在真实货运检查站收集的数据集上进行了大量评估,实验结果表明,该方法在数据集上实现了74.6 $AP^{ ext{box}}$ 和 74.2 $AP^{ ext{mask}}$,在精度和鲁棒性方面优于现有方法,同时保持较低的计算开销。这项工作为自动化货运列车检测提供了一种可部署且高效的视觉解决方案,展示了基础模型适应在工业规模故障诊断场景中的潜力。

🔬 方法详解

问题定义:货运列车的故障检测面临复杂的操作环境,结构重复的组件,以及安全关键区域频繁的遮挡或污染。现有的基于卷积神经网络和Transformer的实例分割方法难以在这种条件下保持良好的泛化性和边界精度,计算开销也较大,难以部署在边缘设备上。

核心思路:利用预训练的Segment Anything Model (SAM) 的强大泛化能力,通过设计一个自提示生成模块,自动生成特定于货运列车故障检测任务的提示,从而引导SAM进行有效的实例分割。同时,采用轻量级的Tiny Vision Transformer作为骨干网络,降低计算复杂度。

技术框架:该框架主要包含三个模块:Tiny Vision Transformer骨干网络、自提示生成模块和SAM分割模块。首先,输入图像通过Tiny Vision Transformer提取特征;然后,自提示生成模块根据提取的特征自动生成一系列提示(例如,目标框、点等);最后,将图像特征和生成的提示输入到SAM中,得到最终的实例分割结果。

关键创新:核心创新在于自提示生成模块的设计,它能够自动地为SAM生成任务相关的提示,避免了手动设计提示的繁琐和主观性,使得SAM能够更好地适应货运列车故障检测任务。此外,采用轻量级的Tiny Vision Transformer骨干网络,降低了计算成本,使其能够部署在边缘设备上。

关键设计:自提示生成模块的具体实现细节未知,论文中可能使用了特定的网络结构或损失函数来优化提示的生成。Tiny Vision Transformer的具体配置也未知,但其目标是尽可能地减少参数量和计算量,同时保持足够的特征提取能力。损失函数的设计可能结合了分割精度和提示的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在自建的货运列车故障检测数据集上取得了显著的性能提升,APbox达到74.6,APmask达到74.2,优于现有的实例分割方法。同时,该方法保持了较低的计算开销,使其能够部署在边缘设备上,满足实时检测的需求。

🎯 应用场景

该研究成果可应用于智能交通系统中货运列车的自动化故障检测,提高检测效率和准确性,降低人工成本,保障铁路运输安全。未来可扩展到其他工业场景的缺陷检测,例如电力巡检、桥梁检测等,具有广阔的应用前景。

📄 摘要(原文)

Accurate visual fault detection in freight trains remains a critical challenge for intelligent transportation system maintenance, due to complex operational environments, structurally repetitive components, and frequent occlusions or contaminations in safety-critical regions. Conventional instance segmentation methods based on convolutional neural networks and Transformers often suffer from poor generalization and limited boundary accuracy under such conditions. To address these challenges, we propose a lightweight self-prompted instance segmentation framework tailored for freight train fault detection. Our method leverages the Segment Anything Model by introducing a self-prompt generation module that automatically produces task-specific prompts, enabling effective knowledge transfer from foundation models to domain-specific inspection tasks. In addition, we adopt a Tiny Vision Transformer backbone to reduce computational cost, making the framework suitable for real-time deployment on edge devices in railway monitoring systems. We construct a domain-specific dataset collected from real-world freight inspection stations and conduct extensive evaluations. Experimental results show that our method achieves 74.6 $AP^{\text{box}}$ and 74.2 $AP^{\text{mask}}$ on the dataset, outperforming existing state-of-the-art methods in both accuracy and robustness while maintaining low computational overhead. This work offers a deployable and efficient vision solution for automated freight train inspection, demonstrating the potential of foundation model adaptation in industrial-scale fault diagnosis scenarios. Project page: https://github.com/MVME-HBUT/SAM_FTI-FDet.git