Qwen-BIM: developing large language model for BIM-based design with domain-specific benchmark and dataset

📄 arXiv: 2602.20812v1 📥 PDF

作者: Jia-Rui Lin, Yun-Hong Cai, Xiang-Rui Ni, Shaojie Zhou, Peng Pan

分类: cs.AI

发布日期: 2026-02-24


💡 一句话要点

Qwen-BIM:构建领域特定大语言模型,用于BIM设计,并提出相应基准和数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 建筑信息模型 BIM设计 大型语言模型 领域特定模型 微调 评估基准 智能建造

📋 核心要点

  1. 现有通用大语言模型在BIM设计领域表现不足,缺乏针对BIM的专业数据集和评估标准。
  2. 提出领域特定基准和数据生成方法,并设计微调策略,使LLM适应BIM设计任务。
  3. Qwen-BIM在G-Eval指标上提升21%,14B参数模型性能媲美671B通用模型。

📝 摘要(中文)

随着建筑业向数字化转型,基于BIM(建筑信息模型)的设计已成为支持智能建造的关键驱动力。尽管大型语言模型(LLM)已显示出在促进基于BIM的设计方面的潜力,但缺乏特定的数据集和LLM评估基准,这严重阻碍了LLM的性能。因此,本文通过提出以下内容来解决这一差距:1)一个用于基于BIM的设计的评估基准,以及相应的定量指标来评估LLM的性能;2)一种从BIM生成文本数据并构建相应的BIM衍生数据集的方法,用于LLM评估和微调;3)一种调整LLM以适应基于BIM的设计的微调策略。结果表明,所提出的领域特定基准有效地全面评估了LLM的能力,突出了通用LLM仍然不适合领域特定任务。同时,利用所提出的基准和数据集,开发了Qwen-BIM,与基础LLM模型相比,G-Eval得分平均提高了21.0%。值得注意的是,仅使用14B参数,Qwen-BIM的性能与用于基于BIM的设计任务的具有671B参数的通用LLM的性能相当。总的来说,本研究通过引入全面的基准和高质量的数据集,开发了第一个用于基于BIM的设计的领域特定LLM,这为在各个领域开发BIM相关的LLM奠定了坚实的基础。

🔬 方法详解

问题定义:论文旨在解决通用大语言模型在建筑信息模型(BIM)设计领域表现不佳的问题。现有方法缺乏针对BIM的专业数据集和评估基准,导致LLM无法有效处理BIM相关的设计任务,阻碍了建筑行业的数字化转型。

核心思路:论文的核心思路是构建一个领域特定的BIM数据集和评估基准,并在此基础上对LLM进行微调,使其能够更好地理解和处理BIM数据,从而提升其在BIM设计任务中的性能。这种领域适配的方法旨在弥合通用LLM与特定行业需求之间的差距。

技术框架:整体框架包含三个主要部分:1) 构建BIM设计评估基准,包含定量指标;2) 从BIM数据生成文本数据,构建BIM衍生数据集,用于LLM的评估和微调;3) 设计微调策略,使LLM适应BIM设计任务。该框架旨在提供一个完整的解决方案,从数据准备、模型训练到性能评估,全面提升LLM在BIM设计领域的应用能力。

关键创新:最重要的技术创新点在于提出了一个领域特定的BIM设计评估基准和数据集。与现有方法相比,该基准和数据集更贴合BIM设计的实际需求,能够更准确地评估LLM在BIM设计任务中的性能。此外,论文还提出了一种有效的微调策略,能够显著提升LLM在BIM设计领域的性能。

关键设计:论文中关于数据集构建和微调策略的具体技术细节未知,摘要中没有详细说明关键参数设置、损失函数或网络结构等信息。需要查阅论文全文才能了解这些细节。

📊 实验亮点

Qwen-BIM模型在提出的BIM设计评估基准上,G-Eval得分平均提升了21.0%,表明领域特定微调的有效性。更重要的是,仅使用14B参数的Qwen-BIM模型,其性能可以与具有671B参数的通用LLM在BIM设计任务中相媲美,突出了领域特定模型在资源效率方面的优势。

🎯 应用场景

该研究成果可应用于智能建造、建筑设计自动化、BIM模型审查与优化等领域。通过提升LLM在BIM设计任务中的性能,可以提高建筑设计的效率和质量,降低成本,并促进建筑行业的数字化转型。未来,该研究可以扩展到其他建筑相关领域,如结构分析、能源模拟等。

📄 摘要(原文)

As the construction industry advances toward digital transformation, BIM (Building Information Modeling)-based design has become a key driver supporting intelligent construction. Despite Large Language Models (LLMs) have shown potential in promoting BIM-based design, the lack of specific datasets and LLM evaluation benchmarks has significantly hindered the performance of LLMs. Therefore, this paper addresses this gap by proposing: 1) an evaluation benchmark for BIM-based design together with corresponding quantitative indicators to evaluate the performance of LLMs, 2) a method for generating textual data from BIM and constructing corresponding BIM-derived datasets for LLM evaluation and fine-tuning, and 3) a fine-tuning strategy to adapt LLMs for BIM-based design. Results demonstrate that the proposed domain-specific benchmark effectively and comprehensively assesses LLM capabilities, highlighting that general LLMs are still incompetent for domain-specific tasks. Meanwhile, with the proposed benchmark and datasets, Qwen-BIM is developed and achieves a 21.0% average increase in G-Eval score compared to the base LLM model. Notably, with only 14B parameters, performance of Qwen-BIM is comparable to that of general LLMs with 671B parameters for BIM-based design tasks. Overall, this study develops the first domain-specific LLM for BIM-based design by introducing a comprehensive benchmark and high-quality dataset, which provide a solid foundation for developing BIM-related LLMs in various fields.