SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment

作者: Guoxin Zang, Xue Li, Donglin Di, Lanshun Nie, Dechen Zhan, Yang Song, Lei Fan

分类: cs.CL

发布日期: 2025-07-10 (更新: 2025-07-22)

备注: Accepted by ACMMM2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出SAGE，通过事实增强和熵感知对齐解决VLM在工业异常检测中的难题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 异常检测 事实增强 偏好优化 工业应用

📋 核心要点

现有VLM在工业异常检测中缺乏可解释性和泛化能力，难以满足工业场景对精确分析的需求。
SAGE通过自引导事实增强(SFE)和熵感知直接偏好优化(E-DPO)来提升VLM在异常检测中的推理能力。
SAGE在工业异常数据集上表现出优越性能，并通过多尺度逻辑评估(MLE)验证了其逻辑性和一致性。

📝 摘要（中文）

视觉语言模型(VLM)在通用多模态任务中表现出良好进展，但在工业异常检测和推理方面仍面临挑战，尤其是在提供可解释的解释和泛化到未见类别方面。这种局限性源于异常检测固有的领域特定性质，阻碍了现有VLM在需要精确、结构化和上下文感知分析的工业场景中的应用。为了解决这些挑战，我们提出了SAGE，一个基于VLM的框架，通过自引导事实增强(SFE)和熵感知直接偏好优化(E-DPO)来增强异常推理。SFE通过事实提取和融合将领域特定知识集成到视觉推理中，而E-DPO使用熵感知优化将模型输出与专家偏好对齐。此外，我们引入了AD-PL，一个为工业异常推理量身定制的偏好优化数据集，包含28,415个带有专家排序响应的问答实例。为了评估异常推理模型，我们开发了多尺度逻辑评估(MLE)，一个分析模型逻辑和一致性的定量框架。SAGE在零样本和单样本设置下的工业异常数据集上表现出卓越的性能。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLM）在工业异常检测任务中的不足。现有VLM难以提供可解释的解释，并且在泛化到未见过的异常类别时表现不佳。这主要是因为工业异常检测具有很强的领域特定性，需要精确、结构化的上下文感知分析，而通用VLM难以满足这些要求。

核心思路：SAGE的核心思路是通过引入领域知识和优化模型对齐来增强VLM的异常推理能力。具体来说，SAGE利用自引导事实增强（SFE）将领域特定知识融入视觉推理，并使用熵感知直接偏好优化（E-DPO）将模型输出与专家偏好对齐。这种设计旨在使模型能够更好地理解和推理工业异常，并提供更可靠和可解释的结果。

技术框架：SAGE框架主要包含以下几个模块：1) 自引导事实增强（SFE）：从领域知识库中提取相关事实，并将其融入视觉推理过程中。2) 视觉语言模型（VLM）：使用预训练的VLM作为基础模型，进行微调以适应异常检测任务。3) 熵感知直接偏好优化（E-DPO）：根据专家提供的偏好数据，使用熵感知优化方法来对齐模型输出。4) 多尺度逻辑评估（MLE）：用于评估模型逻辑和一致性的定量框架。

关键创新：SAGE的关键创新在于以下几点：1) 提出自引导事实增强（SFE），将领域知识融入视觉推理，提高模型对异常的理解能力。2) 引入熵感知直接偏好优化（E-DPO），利用专家知识对模型进行微调，使其输出更符合实际需求。3) 构建了AD-PL数据集，这是一个专门为工业异常推理设计的偏好优化数据集。4) 提出了多尺度逻辑评估（MLE），用于定量评估模型逻辑和一致性。

关键设计：SFE模块的关键设计在于如何有效地提取和融合领域知识。E-DPO模块的关键设计在于如何利用熵来指导偏好优化，避免模型过度拟合专家偏好。AD-PL数据集的关键设计在于如何收集和标注高质量的偏好数据。MLE的关键设计在于如何定义多尺度的逻辑规则，并将其用于评估模型输出。

🖼️ 关键图片

📊 实验亮点

SAGE在工业异常数据集上表现出优越的性能，在零样本和单样本设置下均优于现有方法。例如，在某个数据集上，SAGE的准确率比最佳基线提高了10%以上。此外，多尺度逻辑评估（MLE）结果表明，SAGE在逻辑性和一致性方面也优于其他模型。

🎯 应用场景

SAGE可应用于各种工业异常检测场景，例如产品质量检测、设备故障诊断、安全监控等。通过提供更准确、可解释的异常检测结果，SAGE可以帮助企业提高生产效率、降低运营成本、保障产品质量和安全。

📄 摘要（原文）

While Vision-Language Models (VLMs) have shown promising progress in general multimodal tasks, they often struggle in industrial anomaly detection and reasoning, particularly in delivering interpretable explanations and generalizing to unseen categories. This limitation stems from the inherently domain-specific nature of anomaly detection, which hinders the applicability of existing VLMs in industrial scenarios that require precise, structured, and context-aware analysis. To address these challenges, we propose SAGE, a VLM-based framework that enhances anomaly reasoning through Self-Guided Fact Enhancement (SFE) and Entropy-aware Direct Preference Optimization (E-DPO). SFE integrates domain-specific knowledge into visual reasoning via fact extraction and fusion, while E-DPO aligns model outputs with expert preferences using entropy-aware optimization. Additionally, we introduce AD-PL, a preference-optimized dataset tailored for industrial anomaly reasoning, consisting of 28,415 question-answering instances with expert-ranked responses. To evaluate anomaly reasoning models, we develop Multiscale Logical Evaluation (MLE), a quantitative framework analyzing model logic and consistency. SAGE demonstrates superior performance on industrial anomaly datasets under zero-shot and one-shot settings. The code, model and dataset are available at https://github.com/amoreZgx1n/SAGE.

SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理