Gated Multimodal Learning for Interpretable Property Energy Performance Prediction and Retrofit Scenario Analysis

📄 arXiv: 2605.05088v1 📥 PDF

作者: Yunfei Bai, Aaron Tesfa Tsion, Raul Rosales, Barbara Shollock, Wei He

分类: cs.LG, physics.soc-ph

发布日期: 2026-05-06


💡 一句话要点

提出门控多模态学习模型,用于可解释的建筑能效预测和改造方案分析。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 建筑能效预测 多模态学习 门控机制 可解释性分析 改造方案分析

📋 核心要点

  1. 现有建筑能效评估依赖现场检查,难以实现城市尺度上的及时评估和改造规划。
  2. 提出门控多模态模型,融合EPC数据、评估员文本和GIS空间特征,学习特定属性的模态权重。
  3. 实验表明,该模型能有效预测建筑能效和环境影响评分,并可用于改造方案分析,辅助决策。

📝 摘要(中文)

为了实现具有弹性和可持续性的城市,需要可扩展的方法来降低住宅建筑的碳排放。本研究提出了一种门控多模态模型,通过整合EPC表格变量、评估员编写的自由文本以及GIS导出的空间特征(描述足迹几何形状、高度、面积和方向)来预测标准评估程序(SAP)的能源效率和环境影响(EI)评分。样本级门控学习特定属性的模态权重,辅助带分类头稳定训练。在伦敦威斯敏斯特的案例研究中,该模型预测SAP和EI评分的MAE分别为4.03和4.76分,R2值分别为0.757和0.748,平均MAE为4.39。消融实验表明,对于评分预测和带级分类,完整的多模态融合优于单模态和双模态基线。可解释性分析提供了决策相关证据:门控权重表明对评估员文本的强烈依赖;SHAP突出显示主要燃料、建筑形式和建造年代;文本遮挡优先考虑屋顶和墙壁字段;空间归因主要由高度和足迹面积决定,并对足迹形状敏感。验证后的框架进一步应用于墙体隔热、屋顶隔热和窗户玻璃升级的改造方案,表明SAP、EI、年度能源成本和等效CO2排放量的预计改进。总的来说,该框架为改造筛选、干预优先级排序和净零住房转型提供了可扩展的属性级证据。

🔬 方法详解

问题定义:论文旨在解决城市尺度上住宅建筑能效评估和改造规划的问题。现有方法主要依赖于现场检查,耗时耗力,难以实现大规模应用。因此,需要一种可扩展的方法,能够利用现有数据(如EPC数据、文本描述和GIS信息)准确预测建筑能效,并为改造方案提供决策支持。

核心思路:论文的核心思路是利用多模态学习,将不同来源的数据(表格数据、文本数据和空间数据)融合起来,以更全面地描述建筑的能效特征。通过门控机制,模型可以学习到不同模态数据对于特定建筑的重要性,从而提高预测精度和可解释性。

技术框架:该模型采用门控多模态学习框架,主要包括以下几个模块:1) 特征提取模块:分别从EPC表格数据、评估员文本和GIS空间数据中提取特征。2) 门控模块:学习每个样本(建筑)的模态权重,用于加权融合不同模态的特征。3) 预测模块:利用融合后的特征预测SAP和EI评分。4) 辅助分类模块:引入辅助的带级分类任务,以稳定训练过程。

关键创新:该论文的关键创新在于:1) 提出了门控多模态学习框架,能够自适应地学习不同模态数据的重要性。2) 引入了辅助带级分类任务,提高了模型的训练稳定性和泛化能力。3) 对模型的可解释性进行了深入分析,揭示了不同特征对于能效预测的影响。

关键设计:在门控模块中,使用了sigmoid函数将模态权重归一化到0-1之间。损失函数包括评分预测的均方误差损失和带级分类的交叉熵损失。网络结构方面,使用了多层感知机(MLP)作为特征提取器和预测器。具体参数设置在论文中有详细描述,但此处未提供。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在伦敦威斯敏斯特的案例研究中,SAP和EI评分的MAE分别为4.03和4.76分,R2值分别为0.757和0.748,平均MAE为4.39。消融实验表明,完整的多模态融合优于单模态和双模态基线,验证了多模态融合的有效性。

🎯 应用场景

该研究成果可应用于城市建筑能效评估、改造方案筛选和干预优先级排序。政府部门和能源公司可以利用该模型快速评估城市建筑的能效状况,制定合理的改造计划,并为居民提供个性化的改造建议,从而推动净零住房转型和可持续城市发展。

📄 摘要(原文)

Achieving resilient and sustainable cities requires scalable approaches to decarbonising residential buildings, which account for about 20% of UK greenhouse gas emissions and 25% of energy-related emissions in the European Union. Energy Performance Certificates (EPCs) support regulation and retrofit planning, but their reliance on on-site inspections limits timely city-scale assessment. This study introduces a gated multimodal model to predict Standard Assessment Procedure (SAP) energy efficiency and Environmental Impact (EI) scores by integrating EPC tabular variables, assessor-written free text, and Geographic Information System (GIS)-derived spatial features describing footprint geometry, height, area, and orientation. Sample-wise gating learns property-specific modality weights, while an auxiliary band classification head stabilises training. In a Westminster, London case study, the model predicts SAP and EI scores with MAEs of 4.03 and 4.76 points and R2 values of 0.757 and 0.748, respectively, achieving a mean MAE of 4.39. Ablation results show that full multimodal fusion outperforms unimodal and bimodal baselines for both score prediction and band-level classification. Interpretability analyses provide decision-relevant evidence: gating weights indicate strong reliance on assessor text; SHAP highlights main fuel, built form, and construction age band; text occlusion prioritises roof and wall fields; and spatial attribution is dominated by height and footprint area, with sensitivity to footprint shape. The validated framework is further applied to retrofit scenarios for wall insulation, roof insulation, and window glazing upgrades, indicating projected improvements in SAP, EI, annual energy cost, and equivalent CO2 emissions. Overall, the framework provides scalable property-level evidence for retrofit screening, intervention prioritisation, and net-zero housing transitions.