Industrial Synthetic Segment Pre-training

📄 arXiv: 2505.13099v2 📥 PDF

作者: Shinichi Mae, Ryousuke Yamada, Hirokatsu Kataoka

分类: cs.CV

发布日期: 2025-05-19 (更新: 2025-05-20)


💡 一句话要点

提出InsCore合成数据集,用于工业场景实例分割预训练,无需真实图像和人工标注。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 实例分割 合成数据 预训练 工业应用 公式驱动监督学习

📋 核心要点

  1. 工业应用中,真实图像数据集存在法律和伦理限制,且网络图像与工业图像存在领域差异,导致模型泛化能力不足。
  2. 论文提出InsCore合成数据集,通过公式驱动监督学习生成,无需真实图像和人工标注,模拟工业数据特征。
  3. 实验表明,使用InsCore预训练的模型在工业数据集上优于COCO、ImageNet-21k以及微调的SAM,且数据效率更高。

📝 摘要(中文)

本文提出了一种用于工业场景的视觉基础模型构建方法,旨在解决实际应用中存在的法律伦理限制以及网络图像与工业图像之间存在的领域差异问题。作者提出了Instance Core Segmentation Dataset (InsCore),这是一个基于公式驱动监督学习(FDSL)的合成预训练数据集。InsCore能够生成完全标注的实例分割图像,这些图像反映了工业数据的关键特征,包括复杂的遮挡、密集的层级掩码和多样的非刚性形状。与以往方法不同,InsCore不需要真实图像或人工标注。在五个工业数据集上的实验表明,使用InsCore预训练的模型优于在COCO和ImageNet-21k上训练的模型,以及微调后的SAM,在实例分割性能上平均提高了6.2个百分点。该结果仅使用10万张合成图像实现,比SAM的SA-1B数据集中的1100万张图像少100多倍,证明了该方法的数据效率。这些发现使InsCore成为工业应用中实用且免许可的视觉基础模型。

🔬 方法详解

问题定义:工业场景下的实例分割任务面临数据获取的难题。一方面,真实工业图像可能涉及商业机密或隐私问题,难以直接使用。另一方面,通用图像数据集(如ImageNet、COCO)与工业图像存在显著的领域差异,导致模型在工业场景下的性能下降。即使是像SAM这样的视觉基础模型,在工业场景下也会出现明显的性能退化。

核心思路:论文的核心思路是利用合成数据进行预训练,从而避免对真实数据的依赖。通过设计一种公式驱动的图像生成方法,可以控制合成数据的特征,使其更贴近工业场景的特点,从而提高模型在工业场景下的泛化能力。这种方法无需人工标注,降低了数据获取的成本。

技术框架:InsCore的整体框架包含两个主要部分:一是公式驱动的图像生成器,用于生成具有特定属性的合成图像;二是使用这些合成图像进行预训练的实例分割模型。图像生成器通过预定义的公式和参数,控制图像中物体的形状、颜色、纹理、遮挡关系等,从而模拟工业场景中的复杂情况。预训练阶段使用标准的实例分割模型(如Mask R-CNN),并在InsCore数据集上进行训练。

关键创新:InsCore的关键创新在于其合成数据的生成方式。与以往的合成数据方法不同,InsCore不依赖于真实图像或人工标注,而是完全基于公式驱动。这种方法可以灵活地控制合成数据的特征,使其更贴近工业场景的特点。此外,InsCore还考虑了工业场景中常见的复杂遮挡、密集层级掩码和多样非刚性形状等因素,从而提高了合成数据的真实感。

关键设计:InsCore的关键设计包括以下几个方面:1) 物体形状的参数化表示,使用数学公式描述物体的形状,例如圆形、矩形、多边形等;2) 纹理和颜色的随机化,为每个物体随机分配纹理和颜色,增加数据的多样性;3) 遮挡关系的模拟,通过控制物体之间的位置关系,模拟复杂的遮挡情况;4) 密集层级掩码的生成,为每个物体生成多个层级的掩码,用于训练模型识别不同尺度的物体。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用InsCore预训练的模型在五个工业数据集上均取得了显著的性能提升。与在COCO和ImageNet-21k上训练的模型相比,InsCore预训练的模型在实例分割性能上平均提高了6.2个百分点。此外,InsCore预训练的模型甚至优于微调后的SAM,证明了其在工业场景下的有效性。值得注意的是,该结果仅使用10万张合成图像实现,比SAM的SA-1B数据集少100多倍,体现了InsCore的数据效率。

🎯 应用场景

该研究成果可广泛应用于工业自动化、质量检测、机器人视觉等领域。例如,可用于检测生产线上的缺陷产品、识别装配过程中的零件、引导机器人进行精确操作。通过使用InsCore预训练的模型,可以降低对真实数据的依赖,提高模型在工业场景下的性能和泛化能力,从而加速工业智能化进程。

📄 摘要(原文)

Pre-training on real-image datasets has been widely proven effective for improving instance segmentation. However, industrial applications face two key challenges: (1) legal and ethical restrictions, such as ImageNet's prohibition of commercial use, and (2) limited transferability due to the domain gap between web images and industrial imagery. Even recent vision foundation models, including the segment anything model (SAM), show notable performance degradation in industrial settings. These challenges raise critical questions: Can we build a vision foundation model for industrial applications without relying on real images or manual annotations? And can such models outperform even fine-tuned SAM on industrial datasets? To address these questions, we propose the Instance Core Segmentation Dataset (InsCore), a synthetic pre-training dataset based on formula-driven supervised learning (FDSL). InsCore generates fully annotated instance segmentation images that reflect key characteristics of industrial data, including complex occlusions, dense hierarchical masks, and diverse non-rigid shapes, distinct from typical web imagery. Unlike previous methods, InsCore requires neither real images nor human annotations. Experiments on five industrial datasets show that models pre-trained with InsCore outperform those trained on COCO and ImageNet-21k, as well as fine-tuned SAM, achieving an average improvement of 6.2 points in instance segmentation performance. This result is achieved using only 100k synthetic images, more than 100 times fewer than the 11 million images in SAM's SA-1B dataset, demonstrating the data efficiency of our approach. These findings position InsCore as a practical and license-free vision foundation model for industrial applications.