WaferSAGE: Large Language Model-Powered Wafer Defect Analysis via Synthetic Data Generation and Rubric-Guided Reinforcement Learning

作者: Ke Xu

分类: cs.AI

发布日期: 2026-04-30

备注: 16 pages, 3 figures, 8 tables

💡 一句话要点

WaferSAGE：利用合成数据和规则引导强化学习进行晶圆缺陷分析

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 晶圆缺陷分析 视觉问答 合成数据生成 强化学习 规则引导 半导体制造 视觉-语言模型

📋 核心要点

半导体制造中晶圆缺陷分析面临数据稀缺的挑战，限制了视觉-语言模型在该领域的应用。
WaferSAGE通过合成数据生成和规则引导强化学习，训练小型视觉-语言模型，提升晶圆缺陷分析能力。
实验表明，WaferSAGE使40亿参数的Qwen3-VL模型性能接近Gemini-3-Flash，并支持本地部署。

📝 摘要（中文）

本文提出了WaferSAGE，一个使用小型视觉-语言模型进行晶圆缺陷视觉问答的框架。为了解决半导体制造中的数据稀缺问题，我们提出了一个三阶段的合成管线，该管线结合了用于精确评估的结构化规则生成。从有限的带标签晶圆图开始，我们采用基于聚类的清洗来过滤标签噪声，然后使用视觉-语言模型生成全面的缺陷描述，这些描述被转换为结构化的评估规则标准。这些规则指导VQA对的合成，确保覆盖缺陷类型识别、空间分布、形态和根本原因分析。我们的双重评估框架通过贝叶斯优化将基于规则的指标与LLM-Judge分数对齐，从而实现可靠的自动评估。通过基于课程的强化学习，结合群序列策略优化（GSPO）和规则对齐的奖励，我们的40亿参数Qwen3-VL模型实现了6.493的LLM-Judge分数，接近Gemini-3-Flash（7.149），同时实现了完整的本地部署。我们证明，具有领域特定训练的小型模型可以在专业的工业视觉理解方面超越专有的大型模型，为半导体制造中保护隐私、具有成本效益的部署提供了一条可行的途径。

🔬 方法详解

问题定义：晶圆缺陷分析任务中，高质量标注数据稀缺，严重限制了视觉-语言模型在该领域的应用。现有方法依赖人工标注，成本高昂且难以覆盖所有缺陷类型和场景。因此，如何利用有限的标注数据，训练出高性能的晶圆缺陷分析模型是一个关键问题。

核心思路：WaferSAGE的核心思路是利用合成数据来扩充训练集，并采用规则引导的强化学习来优化模型。通过视觉-语言模型生成缺陷描述，并将其转化为结构化的评估规则，从而指导合成VQA对，确保数据覆盖缺陷类型、空间分布、形态和根本原因分析等多个方面。

技术框架：WaferSAGE包含三个主要阶段：1) 基于聚类的标签噪声清洗；2) 基于视觉-语言模型的缺陷描述生成和规则构建；3) 基于规则引导的强化学习。首先，利用聚类方法清洗少量带标签晶圆图中的噪声。然后，使用视觉-语言模型生成缺陷描述，并将其转化为结构化的评估规则。最后，使用这些规则作为奖励信号，通过群序列策略优化（GSPO）进行强化学习，训练视觉-语言模型。

关键创新：WaferSAGE的关键创新在于其合成数据生成管线和规则引导的强化学习方法。传统的合成数据生成方法难以保证数据的质量和多样性，而WaferSAGE通过结构化的评估规则来指导合成，确保数据覆盖各种缺陷类型和场景。此外，规则引导的强化学习方法能够有效地利用领域知识，提高模型的性能和泛化能力。

关键设计：在合成数据生成阶段，使用Qwen-VL模型生成缺陷描述，并将其转化为结构化的评估规则。在强化学习阶段，使用Group Sequence Policy Optimization (GSPO) 算法，并设计与评估规则对齐的奖励函数。通过贝叶斯优化来对齐基于规则的指标与LLM-Judge分数，从而实现可靠的自动评估。

🖼️ 关键图片

📊 实验亮点

WaferSAGE在晶圆缺陷视觉问答任务上取得了显著成果。使用40亿参数的Qwen3-VL模型，通过规则引导的强化学习，实现了6.493的LLM-Judge分数，接近Gemini-3-Flash（7.149）。证明了小型模型通过领域特定训练可以超越大型模型，为隐私保护和成本效益的部署提供了可能。

🎯 应用场景

WaferSAGE可应用于半导体制造中的晶圆缺陷检测、分类和根本原因分析。该技术能够降低人工标注成本，提高缺陷检测效率和准确性，从而提升半导体产品的质量和良率。此外，WaferSAGE支持本地部署，保护了数据隐私，具有重要的实际应用价值。

📄 摘要（原文）

We present WaferSAGE, a framework for wafer defect visual question answering using small vision-language models. To address data scarcity in semiconductor manufacturing, we propose a three-stage synthesis pipeline incorporating structured rubric generation for precise evaluation. Starting from limited labeled wafer maps, we employ clustering-based cleaning to filter label noise, then generate comprehensive defect descriptions using vision-language models, which are converted into structured evaluation rubrics criteria. These rubrics guide the synthesis of VQA pairs, ensuring coverage across defect type identification, spatial distribution, morphology, and root cause analysis. Our dual assessment framework aligns rule-based metrics with LLM-Judge scores via Bayesian optimization, enabling reliable automated evaluation. Through curriculum-based reinforcement learning with Group Sequence Policy Optimization (GSPO) and rubric-aligned rewards, our 4B-parameter Qwen3-VL model achieves a 6.493 LLM-Judge score, closely approaching Gemini-3-Flash (7.149) while enabling complete on-premise deployment. We demonstrate that small models with domain-specific training can surpass proprietary large models in specialized industrial visual understanding, offering a viable path for privacy-preserving, cost-effective deployment in semiconductor manufacturing.

WaferSAGE: Large Language Model-Powered Wafer Defect Analysis via Synthetic Data Generation and Rubric-Guided Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理