SAEC: Scene-Aware Enhanced Edge-Cloud Collaborative Industrial Vision Inspection with Multimodal LLM

作者: Yuhao Tian, Zheming Yang

分类: cs.CV, cs.AI

发布日期: 2025-09-21

备注: 5 pages, 5 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出SAEC框架，利用多模态LLM实现场景感知的边缘-云协同工业视觉检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工业视觉检测 边缘计算 云计算 多模态LLM 场景感知

📋 核心要点

现有工业视觉检测方法难以兼顾高精度和资源约束，边缘模型精度不足，云端MLLM计算成本过高。
SAEC框架通过高效微调MLLM、轻量级场景复杂度估计和自适应边缘-云调度，实现精度与效率的平衡。
实验表明，SAEC在MVTec AD和KSDD2数据集上显著超越现有方法，并在运行时间和能耗方面有明显优势。

📝 摘要（中文）

工业视觉检测需要在严格的资源约束下实现高精度，但现有方法面临根本性的权衡。多模态LLM (MLLM) 具有强大的推理能力，但计算成本过高，而轻量级边缘模型在复杂情况下通常会失效。本文提出了 SAEC，一个具有 MLLM 的场景感知增强型边缘-云协同工业视觉检测框架。该框架由三个协同组件组成：(1) 用于复杂缺陷检测的高效 MLLM 微调，(2) 轻量级多尺度场景复杂度估计，以及 (3) 自适应边缘-云调度器。这些模块共同通过定制多模态推理以适应场景复杂度，并动态平衡边缘和云资源之间的计算，从而实现稳健的缺陷检测。在 MVTec AD 和 KSDD2 数据集上的实验结果表明，SAEC 的准确率分别达到 85.11% 和 82.72%，超过 Qwen 22.1% 和 20.8%，超过 LLaVA 33.3% 和 31.6%。它还将运行时间减少了高达 22.4%，并将每次正确决策的能源消耗降低了 40%-74%。代码可在 https://github.com/YuHao-Tian/SAEC 获取。

🔬 方法详解

问题定义：工业视觉检测需要在资源受限的环境下保证高精度，现有方法要么依赖计算量大的多模态大语言模型（MLLM），导致部署困难；要么使用轻量级边缘模型，但精度难以满足复杂缺陷检测的需求。因此，如何在边缘设备上实现高精度、低延迟的工业视觉检测是一个关键问题。

核心思路：SAEC的核心思路是根据场景的复杂度，自适应地在边缘和云端分配计算资源。对于简单的场景，使用轻量级的边缘模型进行快速检测；对于复杂的场景，则将任务卸载到云端，利用MLLM进行更精确的推理。通过这种方式，SAEC可以在保证精度的同时，最大限度地降低计算成本和延迟。

技术框架：SAEC框架包含三个主要模块：(1) 高效MLLM微调模块，用于提升MLLM在工业缺陷检测任务上的性能；(2) 轻量级多尺度场景复杂度估计模块，用于评估当前场景的复杂度；(3) 自适应边缘-云调度器，根据场景复杂度动态地将任务分配到边缘或云端执行。整体流程是：首先，输入图像经过场景复杂度估计模块，判断场景是否复杂。如果场景简单，则在边缘设备上使用轻量级模型进行检测；否则，将图像和任务描述发送到云端，由微调后的MLLM进行检测，并将结果返回给边缘设备。

关键创新：SAEC的关键创新在于场景感知的边缘-云协同架构。与传统的边缘计算或云计算方法不同，SAEC能够根据场景的实际情况，动态地调整计算资源的分配，从而实现精度和效率的最佳平衡。此外，轻量级多尺度场景复杂度估计模块也是一个创新点，它能够在计算资源有限的边缘设备上快速准确地评估场景的复杂度。

关键设计：在MLLM微调模块中，采用了高效的参数微调策略，只微调了MLLM的部分参数，从而降低了计算成本和存储需求。在场景复杂度估计模块中，使用了多尺度特征提取和轻量级分类器，以提高估计的准确性和效率。在自适应边缘-云调度器中，使用了基于规则的调度策略，根据场景复杂度和网络状况，动态地调整任务的分配。

🖼️ 关键图片

📊 实验亮点

SAEC在MVTec AD和KSDD2数据集上取得了显著的性能提升。在MVTec AD数据集上，SAEC的准确率达到85.11%，超过Qwen 22.1%，超过LLaVA 33.3%。在KSDD2数据集上，SAEC的准确率达到82.72%，超过Qwen 20.8%，超过LLaVA 31.6%。此外，SAEC还将运行时间减少了高达22.4%，并将每次正确决策的能源消耗降低了40%-74%。

🎯 应用场景

SAEC框架可广泛应用于各种工业视觉检测场景，例如产品质量检测、缺陷定位、表面瑕疵检测等。该框架能够有效降低部署成本，提高检测效率，并提升产品质量。未来，SAEC有望与更多智能制造系统集成，实现更智能、更高效的生产过程。

📄 摘要（原文）

Industrial vision inspection requires high accuracy under stringent resource constraints, yet existing approaches face a fundamental trade-off. Multimodal LLMs (MLLMs) deliver strong reasoning capabilities but incur prohibitive computational costs, while lightweight edge models often fail on complex cases. In this paper, we present SAEC, a scene-aware enhanced edge-cloud collaborative industrial vision inspection framework with MLLM. The framework is composed of three synergistic components: (1) Efficient MLLM Fine-Tuning for Complex Defect Inspection, (2) Lightweight Multiscale Scene-Complexity Estimation, and (3) Adaptive Edge-Cloud Scheduler. Together, these modules enable robust defect detection by tailoring multimodal reasoning to scene complexity and dynamically balancing computation between edge and cloud resources. Experimental results on MVTec AD and KSDD2 datasets demonstrate that SAEC attains 85.11% and 82.72% accuracy, surpassing Qwen by 22.1% and 20.8%, and LLaVA by 33.3% and 31.6%. It also reduces runtime by up to 22.4% and cuts energy per correct decision by 40%-74%. The code is available at https://github.com/YuHao-Tian/SAEC.

SAEC: Scene-Aware Enhanced Edge-Cloud Collaborative Industrial Vision Inspection with Multimodal LLM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理