SteelDefectX: A Coarse-to-Fine Vision-Language Dataset and Benchmark for Generalizable Steel Surface Defect Detection

作者: Shuxian Zhao, Jie Gui, Baosheng Yu, Lu Dong, Zhipeng Gui

分类: cs.CV, cs.AI

发布日期: 2026-03-23

备注: This paper was submitted to CVPR 2026. A revised version will be updated soon

🔗 代码/项目: GITHUB

💡 一句话要点

SteelDefectX：用于通用钢材表面缺陷检测的粗细粒度视觉-语言数据集与基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 钢材表面缺陷检测 视觉-语言数据集 粗细粒度标注 可解释性 泛化能力 零样本学习 迁移学习

📋 核心要点

现有钢材表面缺陷检测方法依赖于标签数据训练的图像分类模型，缺乏可解释性和泛化性。
SteelDefectX数据集提供粗细粒度的文本描述，从类别和样本层面丰富缺陷信息，提升模型学习能力。
实验表明，利用SteelDefectX训练的模型在可解释性、泛化性和迁移性方面均有显著提升。

📝 摘要（中文）

本文提出了SteelDefectX，一个用于钢材表面缺陷检测的视觉-语言数据集，包含25个缺陷类别共7,778张图像，并带有粗细粒度的文本描述。在粗粒度层面，数据集提供类别级信息，包括缺陷类别、代表性视觉属性和相关的工业原因。在细粒度层面，数据集捕获样本特定的属性，如形状、大小、深度、位置和对比度，使模型能够学习更丰富和更详细的缺陷表示。此外，本文还建立了一个包含四个任务的基准：纯视觉分类、视觉-语言分类、少样本/零样本识别和零样本迁移，以评估模型的性能和泛化能力。基于多个基线模型的实验表明，粗细粒度的文本标注显著提高了可解释性、泛化性和可迁移性。SteelDefectX有望成为推动可解释、通用钢材表面缺陷检测研究的重要资源。

🔬 方法详解

问题定义：钢材表面缺陷检测对于保证产品质量至关重要。现有方法主要依赖于在仅有标签的数据集上训练的图像分类模型，这些模型缺乏可解释性，并且在面对新的缺陷类型或不同的生产环境时，泛化能力较差。因此，如何提高钢材表面缺陷检测模型的可解释性和泛化能力是一个关键问题。

核心思路：本文的核心思路是利用视觉-语言模型，通过提供粗细粒度的文本描述来增强模型对缺陷的理解。粗粒度描述提供类别级别的缺陷信息，包括缺陷类别、视觉属性和工业原因；细粒度描述则提供样本级别的缺陷信息，如形状、大小、位置等。通过这种方式，模型可以学习到更丰富和更详细的缺陷表示，从而提高可解释性和泛化能力。

技术框架：SteelDefectX数据集的构建是整个框架的基础。该数据集包含7,778张图像，涵盖25个缺陷类别，并为每个图像提供了粗细粒度的文本描述。基于该数据集，本文建立了一个基准，包含四个任务：纯视觉分类、视觉-语言分类、少样本/零样本识别和零样本迁移。这些任务旨在全面评估模型在不同场景下的性能和泛化能力。

关键创新：该论文的关键创新在于提出了一个包含粗细粒度文本描述的视觉-语言数据集SteelDefectX。与传统的只包含标签的数据集相比，SteelDefectX提供了更丰富的信息，可以帮助模型学习到更细粒度的缺陷特征，从而提高可解释性和泛化能力。此外，该论文还建立了一个全面的基准，可以用于评估不同模型在钢材表面缺陷检测任务上的性能。

关键设计：数据集的构建过程中，作者精心设计了粗细粒度的文本描述。粗粒度描述包括缺陷类别、代表性视觉属性和相关的工业原因，细粒度描述则包括形状、大小、深度、位置和对比度等样本特定属性。在实验中，作者使用了多种基线模型，包括纯视觉模型和视觉-语言模型，并针对不同的任务进行了参数调整。具体的损失函数和网络结构细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，利用SteelDefectX数据集训练的视觉-语言模型在多个任务上均取得了显著的性能提升。例如，在零样本迁移任务中，相比于纯视觉模型，视觉-语言模型能够更好地泛化到新的缺陷类别。具体性能提升数据在论文中进行了详细展示（未知）。

🎯 应用场景

该研究成果可广泛应用于钢铁制造行业的质量控制环节，实现钢材表面缺陷的自动检测与分类，提高生产效率和产品质量。通过提供可解释的缺陷信息，有助于工程师分析缺陷产生的原因，从而改进生产工艺。未来，该方法有望扩展到其他工业产品的缺陷检测领域，例如汽车零部件、电子元件等。

📄 摘要（原文）

Steel surface defect detection is essential for ensuring product quality and reliability in modern manufacturing. Current methods often rely on basic image classification models trained on label-only datasets, which limits their interpretability and generalization. To address these challenges, we introduce SteelDefectX, a vision-language dataset containing 7,778 images across 25 defect categories, annotated with coarse-to-fine textual descriptions. At the coarse-grained level, the dataset provides class-level information, including defect categories, representative visual attributes, and associated industrial causes. At the fine-grained level, it captures sample-specific attributes, such as shape, size, depth, position, and contrast, enabling models to learn richer and more detailed defect representations. We further establish a benchmark comprising four tasks, vision-only classification, vision-language classification, few/zero-shot recognition, and zero-shot transfer, to evaluate model performance and generalization. Experiments with several baseline models demonstrate that coarse-to-fine textual annotations significantly improve interpretability, generalization, and transferability. We hope that SteelDefectX will serve as a valuable resource for advancing research on explainable, generalizable steel surface defect detection. The data will be publicly available on https://github.com/Zhaosxian/SteelDefectX.

SteelDefectX: A Coarse-to-Fine Vision-Language Dataset and Benchmark for Generalizable Steel Surface Defect Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理