Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models
作者: Xuesong Wang, Caisheng Wang
分类: cs.CV
发布日期: 2026-03-09
备注: Submitted to Engineering Applications of Artificial Intelligence, Feb. 16, 2026
💡 一句话要点
利用多模态大语言模型合成缺陷图像,提升电力线绝缘子巡检性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 缺陷图像生成 数据增强 电力巡检 绝缘子缺陷检测
📋 核心要点
- 电力巡检依赖无人机图像,但缺陷数据稀缺限制了缺陷分类器的训练。
- 利用多模态大语言模型,通过视觉参考和文本提示生成合成缺陷图像,增加数据多样性。
- 实验表明,合成数据增强可显著提升缺陷分类F1分数,数据效率提升4-5倍。
📝 摘要(中文)
为了解决电力巡检中缺陷数据稀缺的问题,本文提出了一种利用多模态大语言模型(MLLM)生成合成缺陷图像的方法。该方法无需训练,仅通过视觉参考和文本提示即可生成缺陷图像。通过双参考条件增加图像多样性,轻量级人工验证和提示优化提高标签准确性,并使用基于嵌入的类中心距离选择规则过滤合成图像。在陶瓷绝缘子缺陷类型分类(壳体 vs. 釉面)的公共数据集上进行评估,结果表明,使用嵌入选择的合成图像增强10%的真实训练集,可将测试F1分数从0.615提高到0.739(相对提升20%),相当于数据效率提高了4-5倍。该方法为在难以收集真实缺陷数据时,提高缺陷识别率提供了一种实用且低门槛的途径。
🔬 方法详解
问题定义:电力巡检中,缺陷样本(例如绝缘子破损)难以获取,导致训练精确的缺陷分类器非常困难。现有的数据增强方法可能无法有效模拟真实缺陷的多样性,且标注成本高昂。因此,如何在数据稀缺的情况下提升缺陷识别的准确率是一个关键问题。
核心思路:利用预训练的多模态大语言模型(MLLM)的强大生成能力,通过文本提示和视觉参考,合成逼真的缺陷图像。这种方法无需针对特定缺陷类型进行训练,降低了数据依赖性,并能有效增加训练数据的多样性。
技术框架:该方法包含以下几个主要阶段:1) 使用文本提示和视觉参考,通过MLLM生成初始的合成图像;2) 通过人工验证和提示优化,提高合成图像的标签准确性;3) 使用基于嵌入的类中心距离选择规则,从合成图像池中选择与真实数据分布更接近的图像;4) 将选择的合成图像与真实训练数据混合,用于训练缺陷分类器。
关键创新:该方法的核心创新在于利用预训练的MLLM进行缺陷图像合成,避免了传统数据增强方法的局限性。通过双参考条件、人工验证和嵌入选择等策略,进一步提高了合成图像的质量和标签准确性。这种方法提供了一种低成本、高效的数据增强方案,尤其适用于数据稀缺的场景。
关键设计:在图像生成阶段,使用双参考条件(两个不同的视觉参考图像)来增加合成图像的多样性。人工验证阶段采用轻量级的人工标注,仅对合成图像的标签进行确认或修正。嵌入选择阶段,使用预训练的图像嵌入模型(例如ResNet)提取图像特征,计算每个类别的中心向量,并选择与中心向量距离较近的合成图像。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用合成数据增强后,测试集F1分数从0.615提升到0.739,相对提升20%,相当于数据效率提高了4-5倍。即使使用更强的骨干网络模型和冻结特征的线性探针基线,该方法仍然有效。这表明该方法具有良好的泛化能力和实用价值。
🎯 应用场景
该研究成果可应用于电力巡检、工业质检等领域,解决缺陷数据稀缺的问题,降低人工标注成本,提高缺陷识别的准确率。未来,该方法可扩展到其他缺陷类型和应用场景,例如桥梁裂缝检测、医疗图像分析等,具有广阔的应用前景。
📄 摘要(原文)
Utility companies increasingly rely on drone imagery for post-event and routine inspection, but training accurate defect-type classifiers remains difficult because defect examples are rare and inspection datasets are often limited or proprietary. We address this data-scarcity setting by using an off-the-shelf multimodal large language model (MLLM) as a training-free image generator to synthesize defect images from visual references and text prompts. Our pipeline increases diversity via dual-reference conditioning, improves label fidelity with lightweight human verification and prompt refinement, and filters the resulting synthetic pool using an embedding-based selection rule based on distances to class centroids computed from the real training split. We evaluate on ceramic insulator defect-type classification (shell vs. glaze) using a public dataset with a realistic low training-data regime (104 real training images; 152 validation; 308 test). Augmenting the 10% real training set with embedding-selected synthetic images improves test F1 score (harmonic mean of precision and recall) from 0.615 to 0.739 (20% relative), corresponding to an estimated 4--5x data-efficiency gain, and the gains persist with stronger backbone models and frozen-feature linear-probe baselines. These results suggest a practical, low-barrier path for improving defect recognition when collecting additional real defects is slow or infeasible.