MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

作者: Qian Kou, Xiaofeng Shi, Yulin Li, Xiaosong Qiu, Xinyang Wang, Hua Zhou, Cao Dongxing

分类: cs.CV, cs.AI

发布日期: 2026-05-29

备注: accept by iclm2026

💡 一句话要点

提出MechVQA数据集，并构建MechVL模型，提升MLLM在机械图纸理解上的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机械图纸理解 多模态学习 视觉问答 领域专用模型 数据集构建

📋 核心要点

现有MLLM在机械图纸理解方面存在不足，难以处理高密度标注和复杂的空间关系推理。
论文提出MechVQA数据集和MechVL模型，旨在提升MLLM在机械图纸理解方面的性能。
实验结果表明，MechVL在MechVQA数据集上显著优于现有模型，提升了7.57个百分点。

📝 摘要（中文）

多模态大型语言模型(MLLM)在通用视觉问答(VQA)任务中取得了显著成就。然而，它们在机械工程图纸上仍然表现脆弱，高标注密度和薄弱的领域知识，加上在严格的投影规则和几何约束下不可靠的空间关系推理，使得关键线索容易被忽略，并经常导致错误的答案。为了弥合这一差距，我们引入了第一个全面的机械图纸理解数据集MechVQA，该数据集通过半自动构建和质量控制流程创建。MechVQA包含3.3k张高密度图片，带有21K个问答对，涵盖三个能力级别的10个不同的细粒度任务：识别、推理和判断，提供了一个测试平台来评估和提高MLLM对真实世界机械图纸的理解。在此基础上，我们通过多阶段训练范式开发了MechVL模型，构建了一个强大的领域专用基线。大量的实验结果表明，MechVL在MechVQA总分上比最强的闭源基线高出7.57个百分点，显著提高了机械图纸的理解能力，并为在机械设计和检查场景中部署MLLM提供了可重用的基础。

🔬 方法详解

问题定义：现有MLLM在处理机械图纸时，由于图纸本身的高信息密度、领域知识的缺乏以及复杂的几何约束，导致模型难以准确理解图纸内容并进行推理。现有的VQA模型在通用视觉任务上表现良好，但在机械图纸这种专业领域表现不佳，无法满足实际应用需求。

核心思路：论文的核心思路是构建一个高质量的机械图纸理解数据集MechVQA，并在此基础上训练一个领域专用的MLLM模型MechVL。通过大量带有细粒度标注的机械图纸数据，使模型能够学习到相关的领域知识和空间关系推理能力，从而提升其在机械图纸理解任务上的性能。

技术框架：MechVL模型的训练采用多阶段训练范式，具体流程未知。整体架构可能包含视觉编码器（用于提取图像特征）、语言模型（用于处理问题和生成答案）以及多模态融合模块（用于将视觉和语言信息进行融合）。

关键创新：论文的关键创新在于构建了MechVQA数据集，该数据集是首个全面的机械图纸理解数据集，包含大量高质量的机械图纸和问答对，涵盖了多个细粒度任务。此外，MechVL模型通过在MechVQA数据集上进行训练，能够更好地理解机械图纸，并在该领域取得了显著的性能提升。

关键设计：论文中关于MechVL模型的具体网络结构、损失函数和参数设置等技术细节未知。推测可能使用了针对机械图纸特点设计的视觉编码器和多模态融合模块，并采用了合适的损失函数来优化模型的性能。

🖼️ 关键图片

📊 实验亮点

MechVL模型在MechVQA数据集上取得了显著的性能提升，总分比最强的闭源基线高出7.57个百分点。这一结果表明，通过构建领域专用数据集和训练领域专用模型，可以有效提升MLLM在特定领域的理解能力。该研究为MLLM在机械工程领域的应用奠定了基础。

🎯 应用场景

该研究成果可应用于机械设计、制造和质量检测等领域。例如，可以利用该模型自动理解机械图纸，辅助工程师进行设计和分析；在生产过程中，可以利用该模型进行质量检测，提高生产效率和产品质量。未来，该技术有望实现机械图纸的智能化理解和应用，推动机械工程领域的智能化发展。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question answering (VQA) tasks. However, they remain brittle on mechanical engineering drawings, where high annotation density and weak domain knowledge, compounded by unreliable spatial relation reasoning under strict projection rules and geometric constraints, make decisive cues easy to miss and frequently lead to wrong answers. To bridge this gap, we introduce the first comprehensive mechanical drawing understanding dataset, MechVQA, created through a semi-automated construction and quality-control pipeline. MechVQA contains 3.3k high-density pictures with 21K question-answer pairs, spanning 10 different fine-grained tasks across three capability levels: Recognition, Reasoning, and Judging, providing a testbed to evaluate and improve MLLM understanding on real-world mechanical drawings. On top of MechVQA, we then develop the MechVL model through a multi-stage training paradigm, building a strong domain-specialized baseline. Extensive experimental results demonstrate that MechVL outperforms the strongest closed-source baseline by 7.57 percentage points on the MechVQA total score, significantly enhancing mechanical drawing understanding ability and providing a reusable foundation for deploying MLLMs in mechanical design and inspection scenarios.

MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理