Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams
作者: Ruoxin Xiong, Yanyu Wang, Suat Gunhan, Yimin Zhu, Charles Berryman
分类: cs.CL, cs.AI
发布日期: 2025-04-04
💡 一句话要点
构建CMExamSet基准数据集,评估大型语言模型在建筑管理认证考试中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 建筑管理 基准数据集 零样本学习 性能评估
📋 核心要点
- 建筑管理项目复杂性日益增加,对专业分析工具的需求迫切,现有方法难以有效应对。
- 论文构建CMExamSet基准数据集,评估LLM在建筑管理认证考试中的零样本表现,探索其在CM领域的应用潜力。
- 实验结果表明GPT-4o和Claude 3.7在CM考试中表现优异,但图表理解和多步推理能力仍有待提高。
📝 摘要(中文)
建筑管理(CM)项目日益复杂,面临严格的监管要求和劳动力短缺等挑战,需要专门的分析工具来简化项目工作流程并提高性能。虽然大型语言模型(LLM)在通用推理任务中表现出色,但它们在解决CM特定挑战(如精确的定量分析和法规解释)方面的有效性仍未得到充分探索。为了弥合这一差距,本研究引入了CMExamSet,这是一个综合的基准数据集,包含689道来自四个国家认可的CM认证考试的真实选择题。我们的零样本评估评估了总体准确性、主题领域(例如,施工安全)、推理复杂性(单步和多步)以及问题格式(纯文本、图表参考和表格参考)。结果表明,GPT-4o和Claude 3.7超过了典型的人工通过阈值(70%),平均准确率分别为82%和83%。此外,两种模型在单步任务中表现更好,准确率分别为85.7%(GPT-4o)和86.7%(Claude 3.7)。多步任务更具挑战性,性能分别降至76.5%和77.6%。此外,两种LLM在图表参考问题上都表现出明显的局限性,准确率降至约40%。我们的错误模式分析进一步表明,概念误解是最常见的(44.4%和47.9%),突出了对增强领域特定推理模型的需求。这些发现强调了LLM作为CM中宝贵的补充分析工具的潜力,同时强调了在复杂决策中需要领域特定的改进和持续的人工监督。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在建筑管理(CM)领域的应用潜力,特别是它们解决CM认证考试问题的能力。现有方法缺乏对LLM在CM特定任务(如法规解读、定量分析)的深入评估,并且缺乏专门的基准数据集。
核心思路:论文的核心思路是构建一个高质量的CM考试数据集(CMExamSet),并使用该数据集对最先进的LLM进行零样本评估。通过分析LLM在不同类型问题上的表现,揭示其在CM领域的优势和局限性,为后续的领域特定模型优化提供指导。
技术框架:该研究的技术框架主要包括以下几个阶段: 1. 数据集构建:收集并整理来自四个国家认可的CM认证考试的689道选择题,构建CMExamSet数据集。 2. 零样本评估:使用CMExamSet数据集对GPT-4o和Claude 3.7等LLM进行零样本评估,即不进行任何针对CM任务的微调。 3. 性能分析:从总体准确率、主题领域、推理复杂度和问题格式等多个维度分析LLM的性能表现。 4. 错误分析:对LLM的错误答案进行分类和分析,识别常见的错误模式和概念误解。
关键创新:该论文的关键创新在于: 1. CMExamSet数据集:首次构建了一个专门用于评估LLM在建筑管理领域能力的综合性基准数据集。 2. 全面的性能分析:从多个维度对LLM在CM任务中的表现进行了深入分析,揭示了其优势和局限性。 3. 错误模式分析:通过对LLM错误答案的分析,识别了常见的概念误解,为后续的模型优化提供了方向。
关键设计: 1. 数据集划分:CMExamSet数据集包含不同主题领域(如施工安全)、推理复杂性(单步和多步)和问题格式(纯文本、图表参考和表格参考)的问题,以便进行全面的性能评估。 2. 评估指标:使用准确率作为主要的评估指标,并针对不同类型的问题进行细分。 3. 错误分类:将LLM的错误答案分为不同的类别,如概念误解、计算错误和信息提取错误,以便进行深入的错误分析。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o和Claude 3.7在CMExamSet数据集上表现出色,平均准确率分别达到82%和83%,超过了典型的人工通过阈值(70%)。然而,在图表参考问题上,两种模型的准确率均降至约40%,表明其在视觉信息理解方面存在局限性。
🎯 应用场景
该研究成果可应用于建筑管理领域的智能化辅助决策,例如利用LLM自动解答CM相关问题、辅助项目风险评估和法规解读。未来,通过领域特定微调,LLM有望成为建筑管理人员的得力助手,提高项目效率和质量。
📄 摘要(原文)
The growing complexity of construction management (CM) projects, coupled with challenges such as strict regulatory requirements and labor shortages, requires specialized analytical tools that streamline project workflow and enhance performance. Although large language models (LLMs) have demonstrated exceptional performance in general reasoning tasks, their effectiveness in tackling CM-specific challenges, such as precise quantitative analysis and regulatory interpretation, remains inadequately explored. To bridge this gap, this study introduces CMExamSet, a comprehensive benchmarking dataset comprising 689 authentic multiple-choice questions sourced from four nationally accredited CM certification exams. Our zero-shot evaluation assesses overall accuracy, subject areas (e.g., construction safety), reasoning complexity (single-step and multi-step), and question formats (text-only, figure-referenced, and table-referenced). The results indicate that GPT-4o and Claude 3.7 surpass typical human pass thresholds (70%), with average accuracies of 82% and 83%, respectively. Additionally, both models performed better on single-step tasks, with accuracies of 85.7% (GPT-4o) and 86.7% (Claude 3.7). Multi-step tasks were more challenging, reducing performance to 76.5% and 77.6%, respectively. Furthermore, both LLMs show significant limitations on figure-referenced questions, with accuracies dropping to approximately 40%. Our error pattern analysis further reveals that conceptual misunderstandings are the most common (44.4% and 47.9%), underscoring the need for enhanced domain-specific reasoning models. These findings underscore the potential of LLMs as valuable supplementary analytical tools in CM, while highlighting the need for domain-specific refinements and sustained human oversight in complex decision making.