Automated Facility Enumeration for Building Compliance Checking using Door Detection and Large Language Models

📄 arXiv: 2509.17283v2 📥 PDF

作者: Licheng Zhang, Bach Le, Naveed Akhtar, Tuan Ngo

分类: cs.CV, cs.AI, cs.ET

发布日期: 2025-09-21 (更新: 2025-09-26)

备注: Author name correction in the second version (same content as the first version)


💡 一句话要点

提出基于门检测与大语言模型的自动化设施枚举方法,用于建筑合规性检查

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 建筑合规性检查 设施枚举 门检测 大语言模型 思维链 自动化 平面图分析

📋 核心要点

  1. 建筑合规性检查中设施枚举耗时费力,现有方法难以满足需求,存在自动化程度低的挑战。
  2. 提出一种结合门检测与大语言模型的新方法,利用LLM的推理能力实现自动化设施枚举。
  3. 实验结果表明,该方法在真实和合成数据集上均表现出良好的有效性和鲁棒性,具有较强的泛化能力。

📝 摘要(中文)

建筑合规性检查(BCC)是确保建筑设施符合法规标准的关键过程。BCC的核心组成部分是准确枚举设施类型及其空间分布。尽管其重要性,但该问题在文献中很大程度上被忽视,给BCC带来了重大挑战,并在现有工作流程中留下了一个关键缺口。手动执行此任务非常耗时且劳动密集。大型语言模型(LLM)的最新进展通过将视觉识别与推理能力相结合,为增强自动化提供了新的机会。本文介绍了一个新的BCC任务:自动化设施枚举,包括根据法规要求验证每种设施类型的数量。为了解决这个问题,我们提出了一种将门检测与基于LLM的推理相结合的新方法。我们是第一个将LLM应用于此任务的人,并通过思维链(CoT)管道进一步提高了它们的性能。我们的方法可以很好地推广到不同的数据集和设施类型。在真实和合成平面图数据上的实验证明了我们方法的有效性和鲁棒性。

🔬 方法详解

问题定义:论文旨在解决建筑合规性检查(BCC)中设施枚举的自动化问题。现有方法主要依赖人工,效率低下且容易出错。缺乏自动化的设施枚举方法是BCC流程中的一个关键瓶颈。现有方法无法有效利用视觉信息和推理能力来自动识别和计数设施类型。

核心思路:论文的核心思路是将门检测作为视觉信息的关键线索,结合大语言模型(LLM)的推理能力,实现设施类型的自动枚举。通过门检测定位设施入口,然后利用LLM根据门的位置和周围环境信息推断设施类型和数量。这种方法结合了视觉感知和语义理解,能够更准确地完成设施枚举任务。

技术框架:该方法主要包含两个阶段:1) 门检测阶段:利用现有的门检测算法(具体算法未明确说明)在平面图上检测出门的位置。2) LLM推理阶段:将检测到的门的位置信息以及平面图的其他相关信息(例如房间布局)输入到LLM中。LLM通过思维链(Chain-of-Thought, CoT)的方式进行推理,逐步确定每个门对应的设施类型,并最终统计各种设施的数量。

关键创新:该方法的主要创新点在于首次将大语言模型(LLM)应用于建筑合规性检查中的设施枚举任务。通过结合门检测和LLM推理,实现了更高级别的自动化和智能化。此外,论文还采用了思维链(CoT)技术,引导LLM进行逐步推理,从而提高了推理的准确性和可靠性。与传统方法相比,该方法无需人工标注大量数据,具有更强的泛化能力。

关键设计:论文中关于门检测算法的具体选择和参数设置未详细说明。LLM部分采用了思维链(CoT)提示工程,通过设计合适的提示语,引导LLM进行逐步推理。具体的LLM模型选择和训练细节未知。损失函数和网络结构等技术细节也未在论文中明确给出。

🖼️ 关键图片

fig_0

📊 实验亮点

论文提出了一个新颖的自动化设施枚举方法,并在真实和合成数据集上进行了实验验证。实验结果表明,该方法能够有效地识别和计数各种设施类型,具有良好的鲁棒性和泛化能力。虽然论文中没有给出具体的性能指标和对比基线,但强调了该方法在不同数据集和设施类型上的有效性。

🎯 应用场景

该研究成果可应用于建筑行业的自动化合规性检查,提高建筑设计和施工的效率和质量。通过自动枚举设施类型,可以减少人工审核的工作量,降低错误率,并加速合规性认证过程。此外,该技术还可应用于智能建筑管理、空间规划和室内导航等领域,具有广阔的应用前景。

📄 摘要(原文)

Building compliance checking (BCC) is a critical process for ensuring that constructed facilities meet regulatory standards. A core component of BCC is the accurate enumeration of facility types and their spatial distribution. Despite its importance, this problem has been largely overlooked in the literature, posing a significant challenge for BCC and leaving a critical gap in existing workflows. Performing this task manually is time-consuming and labor-intensive. Recent advances in large language models (LLMs) offer new opportunities to enhance automation by combining visual recognition with reasoning capabilities. In this paper, we introduce a new task for BCC: automated facility enumeration, which involves validating the quantity of each facility type against statutory requirements. To address it, we propose a novel method that integrates door detection with LLM-based reasoning. We are the first to apply LLMs to this task and further enhance their performance through a Chain-of-Thought (CoT) pipeline. Our approach generalizes well across diverse datasets and facility types. Experiments on both real-world and synthetic floor plan data demonstrate the effectiveness and robustness of our method.