Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models

作者: Yang Zhang, Qianyu Zhou, Farhad Imani, Jiong Tang

分类: cs.CV

发布日期: 2025-10-26

💡 一句话要点

提出基于知识增强视觉语言模型的零样本风力涡轮机叶片缺陷检测方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 风力叶片检测 零样本学习 视觉语言模型 检索增强生成 知识库 缺陷检测 无人机巡检

📋 核心要点

现有风力叶片缺陷检测方法依赖大量标注数据，难以检测罕见或新型缺陷，泛化性不足。
提出一种基于检索增强生成（RAG）的零样本检测框架，利用多模态知识库辅助视觉语言模型（VLM）进行推理。
实验表明，该方法在小样本数据集上实现了100%的分类准确率，优于无检索的VLM和开放词汇基线，并具有良好的可解释性。

📝 摘要（中文）

风力涡轮机叶片在恶劣环境中运行，及时检测损伤对于预防故障和优化维护至关重要。基于无人机的检测和深度学习很有前景，但通常依赖于大型标注数据集，这限制了它们检测罕见或不断演变的损伤类型的能力。为了解决这个问题，我们提出了一种面向零样本的检测框架，该框架将检索增强生成（RAG）与视觉语言模型（VLM）集成。构建了一个多模态知识库，包括技术文档、代表性参考图像和领域特定指南。一个具有关键词感知重排序的混合文本-图像检索器组装最相关的上下文，以在推理时调节VLM，在没有任务特定训练的情况下注入领域知识。我们在30个标记的叶片图像上评估了该框架，这些图像涵盖了不同的损伤类别。尽管由于难以获得经过验证的叶片图像，数据集很小，但它涵盖了多个具有代表性的缺陷类型。在这个测试集上，RAG-grounded VLM正确分类了所有样本，而没有检索的相同VLM在准确性和精度方面都表现更差。我们进一步与开放词汇基线进行比较，并纳入不确定性Clopper-Pearson置信区间，以解决小样本设置问题。消融研究表明，该框架的关键优势在于可解释性和泛化性：检索到的参考文献为推理过程奠定了基础，并通过利用领域知识而不是仅仅依赖视觉线索来实现对以前未见过的缺陷的检测。这项研究为工业检测贡献了一种数据高效的解决方案，减少了对大量标记数据集的依赖。

🔬 方法详解

问题定义：论文旨在解决风力涡轮机叶片缺陷检测中，传统深度学习方法对大量标注数据的依赖问题，以及对未见过的缺陷类型泛化能力不足的挑战。现有方法在面对罕见或新型缺陷时，由于缺乏足够的训练数据，往往表现不佳。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，将领域知识注入到视觉语言模型（VLM）中，使其能够在零样本场景下进行缺陷检测。通过构建包含技术文档、参考图像和领域指南的多模态知识库，VLM可以根据检索到的相关知识进行推理，从而提高对未见缺陷的识别能力。

技术框架：该框架包含以下主要模块：1) 多模态知识库构建：收集并整理风力叶片相关的技术文档、参考图像和领域指南，构建一个包含文本和图像信息的知识库。2) 混合文本-图像检索器：设计一个能够同时处理文本和图像查询的检索器，用于从知识库中检索与输入图像最相关的知识。该检索器采用关键词感知重排序策略，以提高检索结果的准确性。3) 视觉语言模型（VLM）：使用预训练的VLM作为缺陷检测的核心模型。通过将输入图像和检索到的相关知识作为VLM的输入，引导VLM进行缺陷分类和定位。

关键创新：该论文的关键创新在于将检索增强生成（RAG）框架应用于风力叶片缺陷检测，实现了零样本缺陷检测。与传统的依赖大量标注数据的深度学习方法不同，该方法通过利用领域知识来提高模型的泛化能力，使其能够检测未见过的缺陷类型。此外，该方法还具有良好的可解释性，因为检索到的参考文献可以为推理过程提供依据。

关键设计：在检索器设计方面，采用了关键词感知重排序策略，以提高检索结果的准确性。具体来说，首先使用文本检索器检索与输入图像相关的文本信息，然后使用图像检索器检索与输入图像相似的参考图像。最后，根据关键词的权重对检索结果进行重排序，以选择最相关的知识。在VLM方面，使用了预训练的视觉语言模型，并对其进行了微调，以适应缺陷检测任务。损失函数方面，使用了交叉熵损失函数来优化模型的分类性能。

📊 实验亮点

实验结果表明，在包含30个叶片图像的小样本数据集上，RAG-grounded VLM实现了100%的分类准确率，显著优于没有检索的VLM以及开放词汇基线。消融实验验证了知识检索模块的有效性，并表明该方法具有良好的可解释性和泛化能力。Clopper-Pearson置信区间分析进一步验证了结果的可靠性。

🎯 应用场景

该研究成果可应用于风力涡轮机叶片、桥梁、飞机等大型基础设施的自动化巡检，降低人工成本，提高检测效率和准确性。通过零样本学习能力，能够快速适应新的缺陷类型，减少对大量标注数据的依赖，具有重要的实际应用价值和推广前景。

📄 摘要（原文）

Wind turbine blades operate in harsh environments, making timely damage detection essential for preventing failures and optimizing maintenance. Drone-based inspection and deep learning are promising, but typically depend on large, labeled datasets, which limit their ability to detect rare or evolving damage types. To address this, we propose a zero-shot-oriented inspection framework that integrates Retrieval-Augmented Generation (RAG) with Vision-Language Models (VLM). A multimodal knowledge base is constructed, comprising technical documentation, representative reference images, and domain-specific guidelines. A hybrid text-image retriever with keyword-aware reranking assembles the most relevant context to condition the VLM at inference, injecting domain knowledge without task-specific training. We evaluate the framework on 30 labeled blade images covering diverse damage categories. Although the dataset is small due to the difficulty of acquiring verified blade imagery, it covers multiple representative defect types. On this test set, the RAG-grounded VLM correctly classified all samples, whereas the same VLM without retrieval performed worse in both accuracy and precision. We further compare against open-vocabulary baselines and incorporate uncertainty Clopper-Pearson confidence intervals to account for the small-sample setting. Ablation studies indicate that the key advantage of the framework lies in explainability and generalizability: retrieved references ground the reasoning process and enable the detection of previously unseen defects by leveraging domain knowledge rather than relying solely on visual cues. This research contributes a data-efficient solution for industrial inspection that reduces dependence on extensive labeled datasets.

Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理