Can AI Make Energy Retrofit Decisions? An Evaluation of Large Language Models

作者: Lei Shu, Dong Zhao

分类: cs.AI

发布日期: 2025-09-08

期刊: Buildings 2025, 15(22), 4081

DOI: 10.3390/buildings15224081

💡 一句话要点

评估大型语言模型在建筑节能改造决策中的应用潜力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 节能改造决策 建筑节能 人工智能 智能社区

📋 核心要点

现有建筑节能改造决策方法缺乏通用性和可解释性，难以适应多样化的住宅环境。
利用大型语言模型处理上下文信息，为从业者提供可读的节能改造建议，辅助决策。
实验表明，LLM在节能改造建议方面表现出潜力，但仍需在准确性、一致性和上下文理解方面改进。

📝 摘要（中文）

传统的建筑节能改造决策方法泛化能力有限且缺乏可解释性，阻碍了其在不同住宅环境中的应用。随着智慧互联社区的发展，生成式人工智能，特别是大型语言模型（LLMs），可以通过处理上下文信息并生成从业者可读的建议来提供帮助。本文评估了七个LLM（ChatGPT、DeepSeek、Gemini、Grok、Llama和Claude）在住宅改造决策中的表现，目标包括：最大化CO2减排（技术目标）和最小化投资回收期（社会技术目标）。使用包含美国49个州400个住宅的数据集，从准确性、一致性、敏感性和推理能力四个维度评估了LLM的性能。结果表明，LLM在许多情况下能够生成有效的建议，无需微调即可达到高达54.5%的Top 1匹配率和92.8%的Top 5匹配率。技术目标的性能更强，而社会技术决策则受到经济权衡和当地环境的限制。模型之间的一致性较低，并且性能较高的模型往往与其他模型不同。LLM对位置和建筑几何形状敏感，但对技术和居住者行为不太敏感。大多数模型都展示了逐步的、工程风格的推理，但它通常被简化并且缺乏更深层次的上下文感知。总的来说，LLM是节能改造决策的有希望的助手，但需要提高准确性、一致性和上下文处理能力才能实现可靠的实践。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在住宅建筑节能改造决策中的能力。现有方法的痛点在于泛化性差，难以适应不同地区的建筑特点和社会经济环境，同时可解释性不足，导致决策过程不透明。

核心思路：论文的核心思路是利用LLMs强大的自然语言处理和知识推理能力，将建筑节能改造问题转化为LLMs可以理解和处理的任务。通过输入建筑物的相关信息（如地理位置、结构、居住者行为等），让LLMs生成合理的改造建议，并评估这些建议的有效性。

技术框架：论文的技术框架主要包括以下几个步骤：1）构建包含美国49个州400个住宅的数据集，该数据集包含建筑物的各种特征信息。2）选择七个主流的LLMs（ChatGPT、DeepSeek、Gemini、Grok、Llama和Claude）作为评估对象。3）设计两种优化目标：最大化CO2减排（技术目标）和最小化投资回收期（社会技术目标）。4）使用准确性、一致性、敏感性和推理能力四个维度评估LLMs的性能。

关键创新：论文的关键创新在于首次系统性地评估了LLMs在建筑节能改造决策中的应用潜力。通过对比不同LLMs在不同目标下的表现，揭示了LLMs在处理技术和社会经济因素时的优势和局限性。此外，论文还分析了LLMs的推理过程，评估了其上下文感知能力。

关键设计：论文的关键设计包括：1）构建了一个包含丰富特征信息的住宅数据集，为LLMs提供了充足的输入信息。2）设计了两种具有代表性的优化目标，分别关注技术和经济因素。3）采用了多个评估指标，全面评估LLMs的性能。4）对LLMs的推理过程进行了分析，深入了解其决策机制。

📊 实验亮点

实验结果表明，LLM在节能改造建议方面表现出潜力，无需微调即可达到高达54.5%的Top 1匹配率和92.8%的Top 5匹配率。技术目标的性能更强，而社会技术决策则受到经济权衡和当地环境的限制。性能较高的模型往往与其他模型不同，且模型对位置和建筑几何形状敏感。

🎯 应用场景

该研究成果可应用于智能家居、智慧社区和城市规划等领域。通过集成LLM，可以为居民提供个性化的节能改造建议，降低能源消耗，减少碳排放。同时，该研究也为建筑节能领域的专家提供了一种新的决策辅助工具，提高决策效率和准确性。未来，可以进一步探索LLM在建筑设计、能源管理等方面的应用。

📄 摘要（原文）

Conventional approaches to building energy retrofit decision making suffer from limited generalizability and low interpretability, hindering adoption in diverse residential contexts. With the growth of Smart and Connected Communities, generative AI, especially large language models (LLMs), may help by processing contextual information and producing practitioner readable recommendations. We evaluate seven LLMs (ChatGPT, DeepSeek, Gemini, Grok, Llama, and Claude) on residential retrofit decisions under two objectives: maximizing CO2 reduction (technical) and minimizing payback period (sociotechnical). Performance is assessed on four dimensions: accuracy, consistency, sensitivity, and reasoning, using a dataset of 400 homes across 49 US states. LLMs generate effective recommendations in many cases, reaching up to 54.5 percent top 1 match and 92.8 percent within top 5 without fine tuning. Performance is stronger for the technical objective, while sociotechnical decisions are limited by economic trade offs and local context. Agreement across models is low, and higher performing models tend to diverge from others. LLMs are sensitive to location and building geometry but less sensitive to technology and occupant behavior. Most models show step by step, engineering style reasoning, but it is often simplified and lacks deeper contextual awareness. Overall, LLMs are promising assistants for energy retrofit decision making, but improvements in accuracy, consistency, and context handling are needed for reliable practice.

Can AI Make Energy Retrofit Decisions? An Evaluation of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理