AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction

📄 arXiv: 2603.29199v1 📥 PDF

作者: Harsh Mankodiya, Chase Gallik, Theodoros Galanos, Andriy Mulyar

分类: cs.AI

发布日期: 2026-03-31

🔗 代码/项目: GITHUB


💡 一句话要点

AEC-Bench:用于建筑、工程和建造领域智能体系统的多模态基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AEC领域 智能体系统 多模态基准测试 图纸理解 跨图纸推理

📋 核心要点

  1. 现有方法在AEC领域缺乏专门的评估基准,难以有效评估智能体系统在复杂任务中的性能。
  2. AEC-Bench通过提供多模态数据集和评估协议,旨在促进AEC领域智能体系统的研究和开发。
  3. 该基准测试通过实验验证了领域特定基础模型工具的有效性,并识别了提升性能的关键技术。

📝 摘要(中文)

AEC-Bench是一个多模态基准测试,用于评估建筑、工程和建造(AEC)领域中智能体系统在真实世界任务中的表现。该基准测试涵盖了需要图纸理解、跨图纸推理和建设项目级别协调的任务。本报告描述了基准测试的动机、数据集分类、评估协议以及跨多个领域特定基础模型工具的基线结果。我们使用AEC-Bench来识别一致的工具和工具设计技术,这些技术可以统一提高基础模型在其自身基础工具中的性能,例如Claude Code和Codex。我们公开了我们的基准数据集、智能体工具和评估代码,以便在https://github.com/nomic-ai/aec-bench上完全复制,并采用Apache 2许可。

🔬 方法详解

问题定义:现有方法缺乏针对建筑、工程和建造(AEC)领域智能体系统的专门评估基准。AEC领域涉及复杂的图纸理解、跨图纸推理和建设项目协调等任务,通用基准难以有效评估智能体系统在该领域的性能。现有方法难以识别适用于AEC领域的基础模型工具和设计技术。

核心思路:AEC-Bench的核心思路是构建一个多模态基准测试,涵盖AEC领域的核心任务,并提供统一的评估协议。通过在该基准上评估不同的智能体系统,可以识别适用于AEC领域的基础模型工具和设计技术,并促进该领域智能体系统的研究和开发。该基准测试旨在弥合通用智能体系统和AEC领域特定需求之间的差距。

技术框架:AEC-Bench包含以下主要组成部分:1) 多模态数据集:包含AEC领域的图纸、文档和项目信息,涵盖图纸理解、跨图纸推理和建设项目协调等任务。2) 评估协议:定义了评估智能体系统性能的指标和流程,包括准确率、效率和鲁棒性等。3) 智能体工具:提供了一组用于构建和评估智能体系统的工具,包括数据加载、模型推理和结果分析等。4) 基线模型:提供了一组基线模型,用于比较不同智能体系统的性能。

关键创新:AEC-Bench的关键创新在于其针对AEC领域的多模态数据集和评估协议。该基准测试涵盖了AEC领域的核心任务,并提供了统一的评估标准,使得研究人员可以更加方便地评估和比较不同的智能体系统。此外,AEC-Bench还提供了一组智能体工具和基线模型,可以加速AEC领域智能体系统的研究和开发。

关键设计:AEC-Bench的数据集包含多种模态的信息,例如图纸、文档和项目信息。评估协议定义了多种评估指标,例如准确率、效率和鲁棒性。智能体工具提供了一组用于构建和评估智能体系统的API。基线模型包括Claude Code和Codex等领域特定基础模型。具体参数设置和网络结构等技术细节未在摘要中详细说明,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AEC-Bench通过实验验证了领域特定基础模型工具的有效性,例如Claude Code和Codex。实验结果表明,通过使用AEC-Bench识别的一致工具和设计技术,可以统一提高基础模型在其自身基础工具中的性能。具体的性能数据和提升幅度需要在论文全文中查找。

🎯 应用场景

AEC-Bench可用于评估和改进建筑、工程和建造领域中的智能体系统,例如自动化设计、智能施工管理和智能设施维护。该基准测试可以促进AEC领域智能体系统的研究和开发,提高建筑行业的效率和质量,并降低成本。

📄 摘要(原文)

The AEC-Bench is a multimodal benchmark for evaluating agentic systems on real-world tasks in the Architecture, Engineering, and Construction (AEC) domain. The benchmark covers tasks requiring drawing understanding, cross-sheet reasoning, and construction project-level coordination. This report describes the benchmark motivation, dataset taxonomy, evaluation protocol, and baseline results across several domain-specific foundation model harnesses. We use AEC-Bench to identify consistent tools and harness design techniques that uniformly improve performance across foundation models in their own base harnesses, such as Claude Code and Codex. We openly release our benchmark dataset, agent harness, and evaluation code for full replicability at https://github.com/nomic-ai/aec-bench under an Apache 2 license.