Enhancing Building Semantics Preservation in AI Model Training with Large Language Model Encodings

📄 arXiv: 2602.15791v1 📥 PDF

作者: Suhyung Jang, Ghang Lee, Jaekun Lee, Hyunjun Lee

分类: cs.AI, cs.CL

发布日期: 2026-02-17

备注: 42nd International Symposium on Automation and Robotics in Construction (ISARC 2025)

DOI: 10.22260/ISARC2025/0130


💡 一句话要点

利用大语言模型编码增强AI模型训练中建筑语义的保持能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 建筑语义理解 大语言模型 嵌入向量 图神经网络 建筑信息模型

📋 核心要点

  1. 现有one-hot等编码方法难以捕捉建筑对象子类型间的细微语义关系,限制了AI模型对建筑语义的理解。
  2. 提出使用大语言模型(LLM)的嵌入向量作为建筑对象子类型的编码,以保留更精细的语义区分。
  3. 实验表明,基于LLM的编码方法优于传统one-hot编码,在建筑对象子类型分类任务上取得了更高的F1分数。

📝 摘要(中文)

在建筑、工程、建造和运营(AECO)行业中,精确表示建筑语义(包括通用对象类型和特定子类型)对于有效的AI模型训练至关重要。传统的编码方法(例如,one-hot编码)通常无法传达密切相关的子类型之间的细微关系,从而限制了AI的语义理解能力。为了解决这个局限性,本研究提出了一种新颖的训练方法,该方法采用大语言模型(LLM)嵌入(例如,OpenAI GPT和Meta LLaMA)作为编码,以保留建筑语义中更精细的区分。我们通过训练GraphSAGE模型对五个高层住宅建筑信息模型(BIM)中的42个建筑对象子类型进行分类,从而评估了所提出的方法。测试了各种嵌入维度,包括原始高维LLM嵌入(1,536、3,072或4,096)和通过Matryoshka表示模型生成的1,024维压缩嵌入。实验结果表明,LLM编码优于传统的one-hot基线,其中llama-3(压缩)嵌入实现了0.8766的加权平均F1分数,而one-hot编码为0.8475。结果强调了利用基于LLM的编码来增强AI解释复杂、特定领域建筑语义的能力的前景。随着LLM和降维技术能力的不断发展,这种方法在整个AECO行业的语义细化任务中具有相当大的应用潜力。

🔬 方法详解

问题定义:论文旨在解决AI模型在理解和区分建筑对象子类型时,由于传统编码方法(如one-hot编码)无法有效捕捉子类型间细微语义关系而导致的性能瓶颈。现有方法的痛点在于语义表达能力不足,导致AI模型难以准确理解和分类建筑领域中复杂的对象。

核心思路:论文的核心思路是利用大语言模型(LLM)强大的语义理解和表达能力,将建筑对象子类型映射到高维语义空间中的嵌入向量。这些嵌入向量能够捕捉子类型之间的细微语义差异,从而为AI模型提供更丰富的语义信息。这样设计的目的是为了弥补传统编码方法在语义表达上的不足,提高AI模型对建筑语义的理解和分类能力。

技术框架:整体框架包括以下几个主要步骤:1) 收集建筑信息模型(BIM)数据,包含建筑对象及其子类型信息;2) 使用大语言模型(如GPT或LLaMA)将每个建筑对象子类型编码为高维嵌入向量;3) 使用降维技术(如Matryoshka表示模型)对高维嵌入向量进行压缩,以降低计算成本;4) 使用GraphSAGE模型对建筑对象进行分类,其中LLM嵌入向量作为节点特征;5) 评估分类性能,并与传统编码方法进行比较。

关键创新:最重要的技术创新点在于将大语言模型(LLM)的嵌入向量引入到建筑对象分类任务中,作为一种新的语义编码方式。与传统的one-hot编码相比,LLM嵌入向量能够捕捉更丰富的语义信息,从而提高AI模型对建筑语义的理解和分类能力。这种方法的本质区别在于从离散的符号表示转向了连续的语义空间表示,从而更好地利用了LLM的语义理解能力。

关键设计:论文中关键的设计包括:1) 选择了GraphSAGE模型作为分类器,因为它能够有效地处理图结构数据,并利用节点特征进行分类;2) 尝试了不同的LLM模型(如GPT和LLaMA)和嵌入维度(1,536、3,072、4,096),以探索最佳的嵌入方式;3) 使用Matryoshka表示模型对高维嵌入向量进行压缩,以降低计算成本,同时尽可能保留语义信息;4) 使用加权平均F1分数作为评估指标,以综合考虑分类的准确率和召回率。

📊 实验亮点

实验结果表明,使用LLM编码的方法显著优于传统的one-hot编码。具体来说,使用llama-3(压缩)嵌入时,加权平均F1分数达到了0.8766,而使用one-hot编码时,该分数为0.8475。这表明LLM编码能够有效提升AI模型对建筑对象子类型的分类性能。

🎯 应用场景

该研究成果可广泛应用于建筑、工程、建造和运营(AECO)行业,例如智能建筑设计、自动化施工管理、建筑信息模型(BIM)分析等。通过提升AI模型对建筑语义的理解,可以实现更智能化的建筑设计和管理,提高效率,降低成本,并为未来的智能建筑发展奠定基础。

📄 摘要(原文)

Accurate representation of building semantics, encompassing both generic object types and specific subtypes, is essential for effective AI model training in the architecture, engineering, construction, and operation (AECO) industry. Conventional encoding methods (e.g., one-hot) often fail to convey the nuanced relationships among closely related subtypes, limiting AI's semantic comprehension. To address this limitation, this study proposes a novel training approach that employs large language model (LLM) embeddings (e.g., OpenAI GPT and Meta LLaMA) as encodings to preserve finer distinctions in building semantics. We evaluated the proposed method by training GraphSAGE models to classify 42 building object subtypes across five high-rise residential building information models (BIMs). Various embedding dimensions were tested, including original high-dimensional LLM embeddings (1,536, 3,072, or 4,096) and 1,024-dimensional compacted embeddings generated via the Matryoshka representation model. Experimental results demonstrated that LLM encodings outperformed the conventional one-hot baseline, with the llama-3 (compacted) embedding achieving a weighted average F1-score of 0.8766, compared to 0.8475 for one-hot encoding. The results underscore the promise of leveraging LLM-based encodings to enhance AI's ability to interpret complex, domain-specific building semantics. As the capabilities of LLMs and dimensionality reduction techniques continue to evolve, this approach holds considerable potential for broad application in semantic elaboration tasks throughout the AECO industry.