Interpretable Logical Anomaly Classification via Constraint Decomposition and Instruction Fine-Tuning

📄 arXiv: 2602.03530v1 📥 PDF

作者: Xufei Zhang, Xinjiao Zhou, Ziling Deng, Dongdong Geng, Jianxiong Wang

分类: cs.CV

发布日期: 2026-02-03

备注: 6 pages, 6 figures


💡 一句话要点

提出LogiCls框架,通过约束分解和指令微调实现可解释的工业图像逻辑异常分类。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 逻辑异常分类 工业图像分析 视觉语言模型 指令微调 约束分解

📋 核心要点

  1. 现有异常检测方法无法解释违反的具体逻辑规则,限制了其在质量保证方面的应用价值。
  2. LogiCls框架将复杂逻辑约束分解为可验证的子查询,并利用思维链监督训练视觉语言模型。
  3. 实验表明LogiCls能够提供稳健、可解释和准确的工业逻辑异常分类结果,并给出证据追踪。

📝 摘要(中文)

逻辑异常是指工业图像中违反预定义约束(关于物体数量、空间布局和组合关系)的情况。现有工作主要将异常检测视为二元决策,无法指出违反了哪条逻辑规则,因此对质量保证的价值有限。本文提出了逻辑异常分类(LAC)任务,它在单个推理步骤中统一了异常检测和细粒度的违规分类。为了解决LAC,我们提出了LogiCls,一个视觉-语言框架,将复杂的逻辑约束分解为一系列可验证的子查询。我们进一步提出了一个以数据为中心的指令合成流程,为这些子查询生成思维链(CoT)监督,将精确的 grounding 注释与多样化的图像-文本增强相结合,使视觉语言模型(VLMs)适应逻辑敏感的推理。通过难度感知重采样策略来稳定训练,该策略强调具有挑战性的子查询和长尾约束类型。大量实验表明,LogiCls 提供了稳健、可解释和准确的工业逻辑异常分类,同时提供预测的违规类别及其证据追踪。

🔬 方法详解

问题定义:论文旨在解决工业图像中逻辑异常的分类问题,即不仅要检测出异常,还要识别出违反了哪些预定义的逻辑约束(如物体数量、空间关系、组合关系等)。现有方法通常只做二元分类(异常/正常),无法提供细粒度的违规信息,缺乏可解释性,难以应用于实际的质量保证场景。

核心思路:论文的核心思路是将复杂的逻辑约束分解为一系列更简单、可验证的子查询。通过视觉语言模型(VLM)对这些子查询进行推理,从而判断原始约束是否被违反。这种分解的方式使得模型能够逐步推理,并提供每一步的证据,提高了可解释性。同时,利用指令微调(Instruction Fine-Tuning)的方式,让VLM更好地理解和执行逻辑推理任务。

技术框架:LogiCls框架主要包含以下几个模块:1) 约束分解模块:将复杂的逻辑约束分解为一系列子查询。2) 数据增强模块:通过图像-文本增强生成多样化的训练数据。3) 指令微调模块:利用生成的训练数据对VLM进行微调,使其具备逻辑推理能力。4) 推理模块:利用微调后的VLM对子查询进行推理,最终判断原始约束是否被违反。整个流程通过思维链(Chain-of-Thought, CoT)的方式进行监督,确保模型能够逐步推理并提供证据。

关键创新:论文的关键创新在于:1) 提出了逻辑异常分类(LAC)任务,将异常检测和细粒度违规分类统一起来。2) 提出了LogiCls框架,通过约束分解和指令微调实现可解释的逻辑异常分类。3) 提出了数据驱动的指令合成流程,自动生成用于训练VLM的思维链监督数据。4) 提出了难度感知重采样策略,解决训练数据中的长尾问题。

关键设计:在指令微调阶段,论文设计了一个数据驱动的指令合成流程,自动生成包含图像、文本描述和思维链推理步骤的训练数据。为了提高训练效率和稳定性,论文还采用了难度感知重采样策略,对具有挑战性的子查询和长尾约束类型进行过采样。具体来说,损失函数可能包含交叉熵损失,用于分类子查询的结果,以及对比学习损失,用于学习图像和文本描述之间的对应关系。网络结构方面,使用了预训练的视觉语言模型(如CLIP),并对其进行微调以适应逻辑推理任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LogiCls框架在逻辑异常分类任务上取得了显著的性能提升。相较于现有方法,LogiCls不仅能够准确地检测出异常,还能够提供可解释的违规信息,例如违反了哪些具体的逻辑约束。具体的性能数据(如准确率、召回率等)以及与基线方法的对比结果(提升幅度)需要在论文中查找。

🎯 应用场景

该研究成果可应用于工业制造、产品质量检测等领域。例如,在汽车制造中,可以利用该方法检测零部件是否缺失、安装位置是否正确等。通过提供可解释的违规信息,可以帮助工程师快速定位问题并进行修复,提高生产效率和产品质量。未来,该技术还可以扩展到其他领域,如医疗影像分析、智能安防等。

📄 摘要(原文)

Logical anomalies are violations of predefined constraints on object quantity, spatial layout, and compositional relationships in industrial images. While prior work largely treats anomaly detection as a binary decision, such formulations cannot indicate which logical rule is broken and therefore offer limited value for quality assurance. We introduce Logical Anomaly Classification (LAC), a task that unifies anomaly detection and fine-grained violation classification in a single inference step. To tackle LAC, we propose LogiCls, a vision-language framework that decomposes complex logical constraints into a sequence of verifiable subqueries. We further present a data-centric instruction synthesis pipeline that generates chain-of-thought (CoT) supervision for these subqueries, coupling precise grounding annotations with diverse image-text augmentations to adapt vision language models (VLMs) to logic-sensitive reasoning. Training is stabilized by a difficulty-aware resampling strategy that emphasizes challenging subqueries and long tail constraint types. Extensive experiments demonstrate that LogiCls delivers robust, interpretable, and accurate industrial logical anomaly classification, providing both the predicted violation categories and their evidence trails.