InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

📄 arXiv: 2507.14899v2 📥 PDF

作者: Jiale Liu, Huan Wang, Yue Zhang, Xiaoyu Luo, Jiaxiang Hu, Zhiliang Liu, Min Xie

分类: cs.AI, cs.CV

发布日期: 2025-07-20 (更新: 2025-08-18)


💡 一句话要点

InsightX Agent:基于LMM的智能体框架,用于可靠的X射线无损检测分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: X射线无损检测 大型多模态模型 智能体框架 目标检测 可解释性 主动推理 工业检测

📋 核心要点

  1. 现有基于深度学习的X射线无损检测方法缺乏交互性、可解释性和自我评估能力,限制了其可靠性和操作员信任。
  2. InsightX Agent以大型多模态模型(LMM)为核心,协调缺陷检测器(SDMSD)和证据驱动反思工具(EGR),实现主动推理。
  3. 在GDXray+数据集上,InsightX Agent实现了96.35%的F1分数,并显著提升了分析的可解释性和可信度。

📝 摘要(中文)

本文提出InsightX Agent,一种新颖的基于大型多模态模型(LMM)的智能体框架,旨在提供可靠、可解释和交互式的X射线无损检测(NDT)分析。与传统的顺序流程不同,InsightX Agent将LMM定位为中央协调器,协调稀疏可变形多尺度检测器(SDMSD)和证据驱动反思(EGR)工具。SDMSD为多尺度特征图生成密集的缺陷区域提议,并通过非极大值抑制(NMS)对其进行稀疏化,优化X射线图像中小而密的目标的检测,同时保持计算效率。EGR工具引导LMM智能体通过链式思考式的审查过程,整合上下文评估、个体缺陷分析、假阳性消除、置信度重新校准和质量保证,以验证和改进SDMSD的初始提议。通过策略性地使用和智能地利用工具,InsightX Agent超越了被动数据处理,转向主动推理,从而提高了诊断可靠性,并提供了整合各种信息来源的解释。在GDXray+数据集上的实验评估表明,InsightX Agent不仅实现了96.35%的高目标检测F1分数,而且还在其分析中提供了显著提高的可解释性和可信度,突出了智能体LLM框架在工业检测任务中的变革潜力。

🔬 方法详解

问题定义:论文旨在解决X射线无损检测中,现有深度学习方法缺乏交互性、可解释性和自我评估能力的问题。这些方法通常是顺序流程,难以进行主动推理和错误纠正,导致可靠性不足,难以获得操作员的信任。

核心思路:论文的核心思路是将大型多模态模型(LMM)作为智能体,通过协调不同的工具(缺陷检测器和证据驱动反思工具)来模拟人类专家进行X射线图像分析的过程。LMM负责理解图像内容、调用工具、整合信息并进行推理,从而实现更可靠和可解释的检测结果。

技术框架:InsightX Agent框架包含以下主要模块:1) Sparse Deformable Multi-Scale Detector (SDMSD):用于生成缺陷区域提议。2) Evidence-Grounded Reflection (EGR) tool: 用于引导LMM智能体进行链式思考式的审查过程,包括上下文评估、个体缺陷分析、假阳性消除、置信度重新校准和质量保证。3) Large Multimodal Model (LMM):作为中央协调器,负责接收图像和SDMSD的提议,调用EGR工具进行反思,并最终输出检测结果。

关键创新:该论文的关键创新在于将LMM引入X射线无损检测领域,并将其作为智能体来协调不同的工具。这种agentic框架能够进行主动推理和错误纠正,从而显著提高检测的可靠性和可解释性。与传统的顺序流程相比,InsightX Agent能够更好地模拟人类专家的分析过程。

关键设计:SDMSD采用多尺度特征图和非极大值抑制(NMS)来优化小而密的目标的检测,同时保持计算效率。EGR工具通过链式思考式的审查过程来引导LMM智能体进行反思,包括上下文评估、个体缺陷分析、假阳性消除、置信度重新校准和质量保证。LMM的具体选择和prompt设计对最终性能至关重要,但论文中未明确说明具体细节。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

InsightX Agent在GDXray+数据集上取得了显著的成果,目标检测F1分数高达96.35%。此外,该框架还显著提高了分析的可解释性和可信度,能够提供更详细的缺陷描述和推理过程。这些结果表明,InsightX Agent在X射线无损检测方面具有巨大的潜力。

🎯 应用场景

InsightX Agent可应用于各种工业领域的质量控制和安全检测,例如航空航天、汽车制造、电子产品等。它可以帮助检测产品中的缺陷,提高产品质量和可靠性,降低安全风险。该研究的未来影响在于推动智能体技术在工业检测领域的应用,实现自动化、智能化和高可靠性的检测。

📄 摘要(原文)

Non-destructive testing (NDT), particularly X-ray inspection, is vital for industrial quality assurance, yet existing deep-learning-based approaches often lack interactivity, interpretability, and the capacity for critical self-assessment, limiting their reliability and operator trust. To address these shortcomings, this paper proposes InsightX Agent, a novel LMM-based agentic framework designed to deliver reliable, interpretable, and interactive X-ray NDT analysis. Unlike typical sequential pipelines, InsightX Agent positions a Large Multimodal Model (LMM) as a central orchestrator, coordinating between the Sparse Deformable Multi-Scale Detector (SDMSD) and the Evidence-Grounded Reflection (EGR) tool. The SDMSD generates dense defect region proposals for multi-scale feature maps and sparsifies them through Non-Maximum Suppression (NMS), optimizing detection of small, dense targets in X-ray images while maintaining computational efficiency. The EGR tool guides the LMM agent through a chain-of-thought-inspired review process, incorporating context assessment, individual defect analysis, false positive elimination, confidence recalibration and quality assurance to validate and refine the SDMSD's initial proposals. By strategically employing and intelligently using tools, InsightX Agent moves beyond passive data processing to active reasoning, enhancing diagnostic reliability and providing interpretations that integrate diverse information sources. Experimental evaluations on the GDXray+ dataset demonstrate that InsightX Agent not only achieves a high object detection F1-score of 96.35% but also offers significantly improved interpretability and trustworthiness in its analyses, highlighting the transformative potential of agentic LLM frameworks for industrial inspection tasks.