Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

作者: Xuesong Wang, Caisheng Wang

分类: cs.CV

发布日期: 2026-03-09

备注: Submitted to Engineering Applications of Artificial Intelligence, Feb. 16, 2026

💡 一句话要点

利用多模态大语言模型合成缺陷图像，提升电力线绝缘子巡检性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 缺陷图像生成 数据增强 电力巡检 绝缘子缺陷检测

📋 核心要点

电力巡检依赖无人机图像，但缺陷数据稀缺限制了缺陷分类器的训练。
利用多模态大语言模型，通过视觉参考和文本提示生成合成缺陷图像，增加数据多样性。
实验表明，合成数据增强可显著提升缺陷分类F1分数，数据效率提升4-5倍。

📝 摘要（中文）

为了解决电力巡检中缺陷数据稀缺的问题，本文提出了一种利用多模态大语言模型（MLLM）生成合成缺陷图像的方法。该方法无需训练，仅通过视觉参考和文本提示即可生成缺陷图像。通过双参考条件增加图像多样性，轻量级人工验证和提示优化提高标签准确性，并使用基于嵌入的类中心距离选择规则过滤合成图像。在陶瓷绝缘子缺陷类型分类（壳体 vs. 釉面）的公共数据集上进行评估，结果表明，使用嵌入选择的合成图像增强10%的真实训练集，可将测试F1分数从0.615提高到0.739（相对提升20%），相当于数据效率提高了4-5倍。该方法为在难以收集真实缺陷数据时，提高缺陷识别率提供了一种实用且低门槛的途径。

🔬 方法详解

问题定义：电力巡检中，缺陷样本（例如绝缘子破损）难以获取，导致训练精确的缺陷分类器非常困难。现有的数据增强方法可能无法有效模拟真实缺陷的多样性，且标注成本高昂。因此，如何在数据稀缺的情况下提升缺陷识别的准确率是一个关键问题。

核心思路：利用预训练的多模态大语言模型（MLLM）的强大生成能力，通过文本提示和视觉参考，合成逼真的缺陷图像。这种方法无需针对特定缺陷类型进行训练，降低了数据依赖性，并能有效增加训练数据的多样性。

技术框架：该方法包含以下几个主要阶段：1) 使用文本提示和视觉参考，通过MLLM生成初始的合成图像；2) 通过人工验证和提示优化，提高合成图像的标签准确性；3) 使用基于嵌入的类中心距离选择规则，从合成图像池中选择与真实数据分布更接近的图像；4) 将选择的合成图像与真实训练数据混合，用于训练缺陷分类器。

关键创新：该方法的核心创新在于利用预训练的MLLM进行缺陷图像合成，避免了传统数据增强方法的局限性。通过双参考条件、人工验证和嵌入选择等策略，进一步提高了合成图像的质量和标签准确性。这种方法提供了一种低成本、高效的数据增强方案，尤其适用于数据稀缺的场景。

关键设计：在图像生成阶段，使用双参考条件（两个不同的视觉参考图像）来增加合成图像的多样性。人工验证阶段采用轻量级的人工标注，仅对合成图像的标签进行确认或修正。嵌入选择阶段，使用预训练的图像嵌入模型（例如ResNet）提取图像特征，计算每个类别的中心向量，并选择与中心向量距离较近的合成图像。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用合成数据增强后，测试集F1分数从0.615提升到0.739，相对提升20%，相当于数据效率提高了4-5倍。即使使用更强的骨干网络模型和冻结特征的线性探针基线，该方法仍然有效。这表明该方法具有良好的泛化能力和实用价值。

🎯 应用场景

该研究成果可应用于电力巡检、工业质检等领域，解决缺陷数据稀缺的问题，降低人工标注成本，提高缺陷识别的准确率。未来，该方法可扩展到其他缺陷类型和应用场景，例如桥梁裂缝检测、医疗图像分析等，具有广阔的应用前景。

📄 摘要（原文）

Utility companies increasingly rely on drone imagery for post-event and routine inspection, but training accurate defect-type classifiers remains difficult because defect examples are rare and inspection datasets are often limited or proprietary. We address this data-scarcity setting by using an off-the-shelf multimodal large language model (MLLM) as a training-free image generator to synthesize defect images from visual references and text prompts. Our pipeline increases diversity via dual-reference conditioning, improves label fidelity with lightweight human verification and prompt refinement, and filters the resulting synthetic pool using an embedding-based selection rule based on distances to class centroids computed from the real training split. We evaluate on ceramic insulator defect-type classification (shell vs. glaze) using a public dataset with a realistic low training-data regime (104 real training images; 152 validation; 308 test). Augmenting the 10% real training set with embedding-selected synthetic images improves test F1 score (harmonic mean of precision and recall) from 0.615 to 0.739 (20% relative), corresponding to an estimated 4--5x data-efficiency gain, and the gains persist with stronger backbone models and frozen-feature linear-probe baselines. These results suggest a practical, low-barrier path for improving defect recognition when collecting additional real defects is slow or infeasible.

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理