Qwen-BIM: developing large language model for BIM-based design with domain-specific benchmark and dataset

作者: Jia-Rui Lin, Yun-Hong Cai, Xiang-Rui Ni, Shaojie Zhou, Peng Pan

分类: cs.AI

发布日期: 2026-02-24

💡 一句话要点

Qwen-BIM：构建领域特定大语言模型，用于BIM设计，并提出相应基准和数据集。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 建筑信息模型 BIM设计 大型语言模型 领域特定模型 微调 评估基准 智能建造

📋 核心要点

现有通用大语言模型在BIM设计领域表现不足，缺乏针对BIM的专业数据集和评估标准。
提出领域特定基准和数据生成方法，并设计微调策略，使LLM适应BIM设计任务。
Qwen-BIM在G-Eval指标上提升21%，14B参数模型性能媲美671B通用模型。

📝 摘要（中文）

随着建筑业向数字化转型，基于BIM（建筑信息模型）的设计已成为支持智能建造的关键驱动力。尽管大型语言模型（LLM）已显示出在促进基于BIM的设计方面的潜力，但缺乏特定的数据集和LLM评估基准，这严重阻碍了LLM的性能。因此，本文通过提出以下内容来解决这一差距：1）一个用于基于BIM的设计的评估基准，以及相应的定量指标来评估LLM的性能；2）一种从BIM生成文本数据并构建相应的BIM衍生数据集的方法，用于LLM评估和微调；3）一种调整LLM以适应基于BIM的设计的微调策略。结果表明，所提出的领域特定基准有效地全面评估了LLM的能力，突出了通用LLM仍然不适合领域特定任务。同时，利用所提出的基准和数据集，开发了Qwen-BIM，与基础LLM模型相比，G-Eval得分平均提高了21.0%。值得注意的是，仅使用14B参数，Qwen-BIM的性能与用于基于BIM的设计任务的具有671B参数的通用LLM的性能相当。总的来说，本研究通过引入全面的基准和高质量的数据集，开发了第一个用于基于BIM的设计的领域特定LLM，这为在各个领域开发BIM相关的LLM奠定了坚实的基础。

🔬 方法详解

问题定义：论文旨在解决通用大语言模型在建筑信息模型（BIM）设计领域表现不佳的问题。现有方法缺乏针对BIM的专业数据集和评估基准，导致LLM无法有效处理BIM相关的设计任务，阻碍了建筑行业的数字化转型。

核心思路：论文的核心思路是构建一个领域特定的BIM数据集和评估基准，并在此基础上对LLM进行微调，使其能够更好地理解和处理BIM数据，从而提升其在BIM设计任务中的性能。这种领域适配的方法旨在弥合通用LLM与特定行业需求之间的差距。

技术框架：整体框架包含三个主要部分：1) 构建BIM设计评估基准，包含定量指标；2) 从BIM数据生成文本数据，构建BIM衍生数据集，用于LLM的评估和微调；3) 设计微调策略，使LLM适应BIM设计任务。该框架旨在提供一个完整的解决方案，从数据准备、模型训练到性能评估，全面提升LLM在BIM设计领域的应用能力。

关键创新：最重要的技术创新点在于提出了一个领域特定的BIM设计评估基准和数据集。与现有方法相比，该基准和数据集更贴合BIM设计的实际需求，能够更准确地评估LLM在BIM设计任务中的性能。此外，论文还提出了一种有效的微调策略，能够显著提升LLM在BIM设计领域的性能。

关键设计：论文中关于数据集构建和微调策略的具体技术细节未知，摘要中没有详细说明关键参数设置、损失函数或网络结构等信息。需要查阅论文全文才能了解这些细节。

📊 实验亮点

Qwen-BIM模型在提出的BIM设计评估基准上，G-Eval得分平均提升了21.0%，表明领域特定微调的有效性。更重要的是，仅使用14B参数的Qwen-BIM模型，其性能可以与具有671B参数的通用LLM在BIM设计任务中相媲美，突出了领域特定模型在资源效率方面的优势。

🎯 应用场景

该研究成果可应用于智能建造、建筑设计自动化、BIM模型审查与优化等领域。通过提升LLM在BIM设计任务中的性能，可以提高建筑设计的效率和质量，降低成本，并促进建筑行业的数字化转型。未来，该研究可以扩展到其他建筑相关领域，如结构分析、能源模拟等。

📄 摘要（原文）

As the construction industry advances toward digital transformation, BIM (Building Information Modeling)-based design has become a key driver supporting intelligent construction. Despite Large Language Models (LLMs) have shown potential in promoting BIM-based design, the lack of specific datasets and LLM evaluation benchmarks has significantly hindered the performance of LLMs. Therefore, this paper addresses this gap by proposing: 1) an evaluation benchmark for BIM-based design together with corresponding quantitative indicators to evaluate the performance of LLMs, 2) a method for generating textual data from BIM and constructing corresponding BIM-derived datasets for LLM evaluation and fine-tuning, and 3) a fine-tuning strategy to adapt LLMs for BIM-based design. Results demonstrate that the proposed domain-specific benchmark effectively and comprehensively assesses LLM capabilities, highlighting that general LLMs are still incompetent for domain-specific tasks. Meanwhile, with the proposed benchmark and datasets, Qwen-BIM is developed and achieves a 21.0% average increase in G-Eval score compared to the base LLM model. Notably, with only 14B parameters, performance of Qwen-BIM is comparable to that of general LLMs with 671B parameters for BIM-based design tasks. Overall, this study develops the first domain-specific LLM for BIM-based design by introducing a comprehensive benchmark and high-quality dataset, which provide a solid foundation for developing BIM-related LLMs in various fields.

Qwen-BIM: developing large language model for BIM-based design with domain-specific benchmark and dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理