AECV-Bench: Benchmarking Multimodal Models on Architectural and Engineering Drawings Understanding

📄 arXiv: 2601.04819v1 📥 PDF

作者: Aleksei Kondratenko, Mussie Birhane, Houssame E. Hsain, Guido Maciocci

分类: cs.AI

发布日期: 2026-01-08


💡 一句话要点

AECV-Bench:用于建筑工程图理解的多模态模型基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 建筑工程图纸理解 基准测试 对象计数 文档问答 空间推理 视觉语言模型

📋 核心要点

  1. 现有的多模态模型在理解建筑工程图纸中的几何和语义信息方面存在不足,尤其是在符号识别和空间推理方面。
  2. AECV-Bench基准测试旨在提供一个统一的平台,用于评估多模态模型在对象计数和文档问答等任务上的性能。
  3. 实验结果表明,现有模型在文本提取方面表现良好,但在门窗等符号计数方面仍存在较大差距,需要进一步研究。

📝 摘要(中文)

本文提出了AECV-Bench,一个用于评估多模态和视觉-语言模型在建筑工程(AEC)图纸理解能力上的基准。该基准通过两个互补的用例,利用真实的AEC图纸进行评估:(i) 在120张高质量的平面图上进行对象计数(门、窗、卧室、卫生间);(ii) 基于图纸的文档问答,包含192个问题-答案对,测试文本提取(OCR)、实例计数、空间推理以及对常见图纸区域的比较推理。对象计数性能使用每个字段的精确匹配准确率和MAPE结果进行报告,而文档问答性能使用总体准确率和每个类别的细分,通过LLM-as-a-judge评分流程和针对边缘情况的人工判决进行报告。在统一的协议下评估了广泛的先进模型,观察到稳定的能力梯度;OCR和以文本为中心的文档问答最强(高达0.95的准确率),空间推理中等,而以符号为中心的图纸理解——特别是可靠的门窗计数——仍然未解决(通常为0.40-0.55的准确率),且存在大量的比例误差。这些结果表明,当前的系统作为文档助手运行良好,但缺乏强大的图纸理解能力,从而推动了特定领域的表示和工具增强的、人机协作的工作流程,以实现高效的AEC自动化。

🔬 方法详解

问题定义:论文旨在解决多模态模型在理解建筑工程图纸(AEC)方面的能力评估问题。现有方法缺乏针对AEC图纸的专门基准,无法有效评估模型在对象计数、空间推理等任务上的性能。现有方法在符号识别和空间关系理解方面存在不足,导致在AEC图纸理解任务中表现不佳。

核心思路:论文的核心思路是构建一个专门针对AEC图纸的基准测试集,包含对象计数和文档问答两个任务,以全面评估多模态模型在AEC图纸理解方面的能力。通过设计不同的问题类型,测试模型在文本提取、实例计数、空间推理和比较推理等方面的能力。

技术框架:AECV-Bench基准测试包含以下几个主要组成部分:1) 数据集:包含120张高质量的平面图和192个问题-答案对。2) 任务:包括对象计数和文档问答两个任务。3) 评估指标:对象计数使用精确匹配准确率和MAPE,文档问答使用总体准确率和每个类别的细分。4) 评估流程:使用LLM-as-a-judge评分流程和人工判决来评估模型性能。

关键创新:AECV-Bench是首个专门针对建筑工程图纸理解的多模态模型基准测试。它提供了一个统一的平台,用于评估不同模型在对象计数和文档问答等任务上的性能。该基准测试还引入了LLM-as-a-judge评分流程和人工判决,以更准确地评估模型在复杂推理任务上的能力。

关键设计:在对象计数任务中,模型需要识别并统计平面图中的门、窗、卧室和卫生间等对象。在文档问答任务中,问题涵盖了文本提取、实例计数、空间推理和比较推理等多个方面。评估指标包括精确匹配准确率、MAPE和总体准确率。LLM-as-a-judge评分流程使用大型语言模型来评估模型生成的答案的质量,并使用人工判决来处理边缘情况。

📊 实验亮点

实验结果表明,现有模型在OCR和文本问答方面表现较好(准确率高达0.95),但在空间推理和符号计数方面仍有较大提升空间(准确率通常在0.40-0.55之间)。特别是门窗等关键建筑元素的计数,模型表现不佳,存在显著的比例误差。这些结果突显了现有模型在建筑工程图纸理解方面的局限性。

🎯 应用场景

该研究成果可应用于建筑设计、工程管理和自动化施工等领域。通过提高多模态模型对建筑工程图纸的理解能力,可以实现自动化的图纸分析、对象识别和信息提取,从而提高工作效率,降低人工成本,并为智能建筑和智慧城市的发展提供技术支持。

📄 摘要(原文)

AEC drawings encode geometry and semantics through symbols, layout conventions, and dense annotation, yet it remains unclear whether modern multimodal and vision-language models can reliably interpret this graphical language. We present AECV-Bench, a benchmark for evaluating multimodal and vision-language models on realistic AEC artefacts via two complementary use cases: (i) object counting on 120 high-quality floor plans (doors, windows, bedrooms, toilets), and (ii) drawing-grounded document QA spanning 192 question-answer pairs that test text extraction (OCR), instance counting, spatial reasoning, and comparative reasoning over common drawing regions. Object-counting performance is reported using per-field exact-match accuracy and MAPE results, while document-QA performance is reported using overall accuracy and per-category breakdowns with an LLM-as-a-judge scoring pipeline and targeted human adjudication for edge cases. Evaluating a broad set of state-of-the-art models under a unified protocol, we observe a stable capability gradient; OCR and text-centric document QA are strongest (up to 0.95 accuracy), spatial reasoning is moderate, and symbol-centric drawing understanding - especially reliable counting of doors and windows - remains unsolved (often 0.40-0.55 accuracy) with substantial proportional errors. These results suggest that current systems function well as document assistants but lack robust drawing literacy, motivating domain-specific representations and tool-augmented, human-in-the-loop workflows for an efficient AEC automation.