Beyond Pixels: Vector-to-Graph Transformation for Reliable Schematic Auditing
作者: Chengwei Ma, Zhen Tian, Zhou Zhou, Zhixian Xu, Xiaowei Zhu, Xia Hua, Si Shi, F. Richard Yu
分类: cs.AI, cs.CV
发布日期: 2026-02-12
备注: 4 pages, 3 figures. Accepted to ICASSP 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出向量-图转换以解决工程图纸结构盲目性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 向量-图转换 多模态大型语言模型 工程图纸理解 结构感知 机器审计
📋 核心要点
- 现有的多模态大型语言模型在处理工程图纸时存在结构盲目性,无法有效捕捉拓扑和符号逻辑。
- 本文提出了一种向量-图(V2G)管道,将CAD图纸转换为属性图,以显式化结构依赖关系,增强机器审计能力。
- 在电气合规检查的基准测试中,V2G显著提高了准确性,而现有的MLLMs表现接近随机水平,显示出其有效性。
📝 摘要(中文)
多模态大型语言模型(MLLMs)在视觉理解方面取得了显著进展,但存在结构盲目性这一关键限制。现有的像素驱动方法无法捕捉工程图纸中的拓扑和符号逻辑,导致推理能力不足。为此,本文提出了一种向量-图(V2G)管道,将CAD图纸转换为属性图,其中节点表示组件,边表示连接性,从而使结构依赖关系显式化并可供机器审计。在电气合规检查的诊断基准上,V2G在所有错误类别中均取得了显著的准确性提升,而现有的MLLMs表现接近随机水平。这些结果突显了基于像素的方法的系统性不足,并证明了结构感知表示为多模态人工智能在工程领域的实际应用提供了一条可靠的路径。
🔬 方法详解
问题定义:本文旨在解决现有多模态大型语言模型在处理工程图纸时的结构盲目性问题。现有方法主要依赖像素信息,无法有效捕捉图纸中的拓扑和符号逻辑,导致推理能力不足。
核心思路:论文提出的向量-图(V2G)管道通过将CAD图纸转换为属性图,使得图纸中的结构依赖关系显式化,从而提高机器审计的可靠性。这样的设计使得模型能够更好地理解和推理图纸中的信息。
技术框架:V2G管道的整体架构包括两个主要阶段:首先是将CAD图纸转换为向量表示,其次是构建属性图,其中节点表示图纸组件,边表示它们之间的连接性。
关键创新:V2G的核心创新在于将向量表示与图结构结合,使得机器能够理解图纸中的结构信息。这一方法与传统的像素驱动方法本质上不同,后者无法有效捕捉拓扑关系。
关键设计:在实现过程中,关键设计包括选择合适的向量表示方法、定义节点和边的属性,以及设计损失函数以优化图的构建过程。这些设计确保了图的结构能够准确反映CAD图纸的实际情况。
🖼️ 关键图片
📊 实验亮点
在电气合规检查的基准测试中,V2G方法在所有错误类别中均实现了显著的准确性提升,具体表现为准确率大幅提高,而现有的多模态大型语言模型的表现接近随机水平。这一结果突显了V2G方法的有效性和优越性。
🎯 应用场景
该研究的潜在应用领域包括工程设计、自动化审计和智能制造等。通过提高机器对工程图纸的理解能力,V2G管道可以在电气合规检查、设计验证等任务中发挥重要作用,进而推动多模态人工智能在工程领域的实际应用和发展。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have shown remarkable progress in visual understanding, yet they suffer from a critical limitation: structural blindness. Even state-of-the-art models fail to capture topology and symbolic logic in engineering schematics, as their pixel-driven paradigm discards the explicit vector-defined relations needed for reasoning. To overcome this, we propose a Vector-to-Graph (V2G) pipeline that converts CAD diagrams into property graphs where nodes represent components and edges encode connectivity, making structural dependencies explicit and machine-auditable. On a diagnostic benchmark of electrical compliance checks, V2G yields large accuracy gains across all error categories, while leading MLLMs remain near chance level. These results highlight the systemic inadequacy of pixel-based methods and demonstrate that structure-aware representations provide a reliable path toward practical deployment of multimodal AI in engineering domains. To facilitate further research, we release our benchmark and implementation at https://github.com/gm-embodied/V2G-Audit.