Few-shot Structure-Informed Machinery Part Segmentation with Foundation Models and Graph Neural Networks
作者: Michael Schwingshackl, Fabio Francisco Oberweger, Markus Murschitz
分类: cs.CV
发布日期: 2025-01-17
备注: Accepted at Winter Conference on Applications of Computer Vision (WACV) 2025. Code and available at https://github.com/AIT-Assistive-Autonomous-Systems/Hopomop
💡 一句话要点
提出一种基于基础模型和图神经网络的少样本机械部件结构感知分割方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 少样本学习 语义分割 机械部件 图神经网络 基础模型 CLIPSeg SAM
📋 核心要点
- 现有机械部件分割方法在少样本场景下表现不佳,难以有效利用部件间的结构信息。
- 该方法结合CLIPSeg、SAM等基础模型与图神经网络,利用部件间的空间和层级关系进行分割。
- 实验表明,该方法在合成和真实数据上均表现出色,且训练速度快,具有良好的泛化能力。
📝 摘要(中文)
本文提出了一种针对具有空间和层级关系的机械多部件的少样本语义分割新方法。该方法集成了基础模型CLIPSeg和Segment Anything Model (SAM),以及兴趣点检测器SuperPoint和图卷积网络(GCN),以精确分割机械部件。通过提供1到25个带注释的样本,我们的模型在描绘车载起重机的纯合成数据集上实现了有效的分割,并能处理不同程度的细节。在消费级GPU上,训练时间保持在五分钟以内。该模型展示了对真实数据的强大泛化能力,使用10个合成支持样本在真实数据上实现了92.2的$J\&F$分数,实现了定性的合成到真实泛化。在DAVIS 2017数据集上进行基准测试时,使用三个支持样本在半监督视频分割中实现了71.5的$J\&F$分数。该方法的快速训练时间和对真实数据的有效泛化使其成为与机械和基础设施交互的自主系统的宝贵工具,并展示了组合和协调的基础模型在少样本分割任务中的潜力。
🔬 方法详解
问题定义:论文旨在解决少样本场景下机械部件的语义分割问题。现有方法通常需要大量标注数据,且难以有效利用机械部件之间的结构信息(如空间关系、层级关系),导致分割精度不高,泛化能力差。特别是在真实场景中,获取大量标注数据成本高昂,因此少样本学习具有重要意义。
核心思路:论文的核心思路是结合预训练的基础模型(CLIPSeg, SAM)和图神经网络(GCN),利用基础模型的强大特征提取能力和GCN对结构信息的建模能力,实现对机械部件的精确分割。通过少量样本学习,模型能够快速适应新的机械部件类型,并有效利用部件间的关系提升分割性能。
技术框架:整体框架包含以下几个主要模块:1) 特征提取:使用CLIPSeg和SAM提取图像特征。2) 兴趣点检测:使用SuperPoint检测图像中的关键点,作为图的节点。3) 图构建:基于关键点构建图,节点表示部件,边表示部件间的关系(例如空间邻近关系)。4) 图卷积网络:使用GCN对图进行学习,聚合节点信息,从而学习部件的表示。5) 分割:基于学习到的部件表示,进行像素级别的分割。
关键创新:该方法最重要的技术创新在于将预训练的基础模型与图神经网络相结合,充分利用了基础模型的强大特征提取能力和GCN对结构信息的建模能力。与传统方法相比,该方法无需从头训练复杂的分割网络,而是利用预训练模型的知识迁移能力,大大减少了训练数据需求,并提高了分割精度和泛化能力。
关键设计:关键设计包括:1) 使用SuperPoint检测兴趣点,作为图的节点,有效提取图像中的关键信息。2) 设计合适的图结构,有效建模部件间的空间和层级关系。3) 选择合适的GCN结构,有效聚合节点信息,学习部件的表示。4) 使用交叉熵损失函数进行分割训练,并采用数据增强等技术提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
该模型在合成数据集上进行了评估,仅使用1到25个带注释的样本即可实现有效的分割。在真实数据上,使用10个合成支持样本实现了92.2的$J\&F$分数,展示了良好的合成到真实泛化能力。在DAVIS 2017数据集上,使用三个支持样本在半监督视频分割中实现了71.5的$J\&F$分数。此外,该模型在消费级GPU上的训练时间保持在五分钟以内,具有很高的实用价值。
🎯 应用场景
该研究成果可应用于自主机器人、智能制造、基础设施维护等领域。例如,在自主机器人中,可以利用该方法实现对机械设备的自动识别和部件分割,从而进行智能操作和维护。在智能制造中,可以用于产品质量检测和故障诊断。在基础设施维护中,可以用于桥梁、隧道等结构的自动检测和评估。该方法具有快速训练和良好泛化能力,有望推动相关领域的智能化发展。
📄 摘要(原文)
This paper proposes a novel approach to few-shot semantic segmentation for machinery with multiple parts that exhibit spatial and hierarchical relationships. Our method integrates the foundation models CLIPSeg and Segment Anything Model (SAM) with the interest point detector SuperPoint and a graph convolutional network (GCN) to accurately segment machinery parts. By providing 1 to 25 annotated samples, our model, evaluated on a purely synthetic dataset depicting a truck-mounted loading crane, achieves effective segmentation across various levels of detail. Training times are kept under five minutes on consumer GPUs. The model demonstrates robust generalization to real data, achieving a qualitative synthetic-to-real generalization with a $J\&F$ score of 92.2 on real data using 10 synthetic support samples. When benchmarked on the DAVIS 2017 dataset, it achieves a $J\&F$ score of 71.5 in semi-supervised video segmentation with three support samples. This method's fast training times and effective generalization to real data make it a valuable tool for autonomous systems interacting with machinery and infrastructure, and illustrate the potential of combined and orchestrated foundation models for few-shot segmentation tasks.