GHGbench: A Unified Multi-Entity, Multi-Task Benchmark for Carbon Emission Prediction

作者: Yifan Duan, Siyuan Zheng, Lihuan Li, Chao Xue, Flora Salim

分类: cs.LG

发布日期: 2026-05-13

💡 一句话要点

GHGbench：一个统一的多实体、多任务碳排放预测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 碳排放预测 基准数据集 多模态学习 迁移学习 表格数据 遥感数据 温室气体 能源消耗

📋 核心要点

现有实体级碳排放预测的开放数据集和基准在访问、规模、粒度和评估方面存在碎片化问题。
GHGbench通过统一的数据模式和评估标准，提供了一个综合性的公司和建筑碳排放预测基准。
实验表明，建筑排放预测难度高于公司排放，且跨区域泛化能力是关键挑战，多模态遥感数据有所帮助。

📝 摘要（中文）

本文提出了GHGbench，一个开放的温室气体预测数据集和基准，涵盖公司和建筑层面。公司部分包含来自12000多家公司的32000多条公司-年份记录，包括Scope 1+2和Scope 3披露以及财务/行业信号；建筑部分整合了来自13个开放来源的491591条建筑-年份记录，覆盖26个都市区（10个美国、15个澳大利亚、1个新加坡），包含气候协变量和多模态遥感嵌入。GHGbench定义了典型的数据分割，以同分布和跨区域/城市迁移作为主要任务，时间保持和短时程预测作为补充证据；基线模型包括梯度提升树、表格基础模型、MLP、FT-Transformer和多模态融合，以及LLM面板作为辅助，均在多种子配对自举测试下进行评估。研究发现：（i）建筑排放比公司排放更难预测；（ii）同分布到异分布的差距远大于模型内部差距；（iii）多模态遥感嵌入在表格泛化失效时提供帮助。GHGbench还揭示了灾难性的城市迁移和行业因素查找上限等系统性失效模式。代码和重建配方可在GHGbench获取。

🔬 方法详解

问题定义：论文旨在解决缺乏统一的、大规模的、多实体碳排放预测基准的问题。现有数据集分散，评估标准不一致，阻碍了算法的公平比较和有效改进。现有方法难以在不同区域和实体之间泛化，缺乏对多模态数据的有效利用。

核心思路：论文的核心思路是构建一个统一的、多实体（公司和建筑）、多任务（同分布预测、跨区域迁移、时间序列预测）的碳排放预测基准，包含大规模的真实世界数据，并提供标准化的评估流程和基线模型。通过这个基准，可以促进碳排放预测算法的开发和评估，并揭示现有方法的局限性。

技术框架：GHGbench包含两个主要部分：公司碳排放预测和建筑碳排放预测。公司部分使用公司财务数据和行业信息预测Scope 1+2和Scope 3排放；建筑部分使用建筑属性、气候数据和遥感图像预测建筑能耗。基准提供标准化的数据分割，包括同分布分割、跨区域分割和时间序列分割。评估指标包括回归任务的常用指标，如均方误差和R方。

关键创新：GHGbench的关键创新在于其统一性、规模性和多任务性。它是第一个同时包含公司和建筑碳排放数据的基准，并提供了标准化的评估流程。此外，它还引入了多模态遥感数据，并研究了其在碳排放预测中的作用。通过跨区域迁移学习任务，揭示了现有方法的泛化能力瓶颈。

关键设计：GHGbench的数据预处理包括数据清洗、缺失值填充和特征工程。基线模型包括梯度提升树、表格基础模型（TabTransformer）、MLP、FT-Transformer和多模态融合模型。多模态融合模型将表格数据和遥感嵌入进行拼接或注意力加权。评估采用多种子配对自举测试，以确保结果的统计显著性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，建筑排放预测比公司排放预测更具挑战性。跨区域泛化能力是关键瓶颈，同分布到异分布的性能差距显著。表格基础模型在多城市建筑排放任务上首次显著优于调优的梯度提升树。多模态遥感嵌入在表格泛化失效时能有效提升性能。

🎯 应用场景

GHGbench可应用于碳排放监测、能源效率评估、城市规划和气候政策制定等领域。通过准确预测公司和建筑的碳排放，可以帮助企业和政府制定更有效的减排策略，并评估其减排效果。该基准还可以促进碳排放预测算法的开发和改进，推动相关技术的进步。

📄 摘要（原文）

Open datasets and benchmarks for entity-level carbon-emission prediction remain fragmented across access, scale, granularity, and evaluation. We introduce GHGbench, an open dataset and benchmark for company- and building-level greenhouse-gas prediction. The company track contains 32,000+ company-year records from 12,000+ firms with Scope 1+2 and Scope 3 disclosures and financial/sectoral signals; the building track harmonises 491,591 building-year records from 13 open sources into a single schema across 26 metropolitan areas (10 U.S., 15 Australian, 1 Singaporean), with climate covariates and multimodal remote-sensing embeddings. GHGbench defines canonical splits with in-distribution and cross-region/city transfer as primary tasks and temporal hold-out plus short-horizon forecasting as supplementary appendix evidence; headline baselines span gradient-boosted trees, a tabular foundation model, MLP, FT-Transformer, and multimodal fusion, with an LLM panel as auxiliary, all evaluated under multi-seed paired-bootstrap tests. Three benchmark-level findings emerge: (i) building emissions are structurally harder than company emissions; (ii) the in-distribution to out-of-distribution gap dwarfs any within-model gap across both the company track and the building track, and a tabular foundation model is, to our knowledge, the first baseline to open a paired-bootstrap-significant gap over tuned trees on a multi-city building-emissions task; (iii) multimodal remote-sensing embeddings help precisely where tabular generalisation breaks. GHGbench also exposes catastrophic city transfer and the sector-factor lookup ceiling as systematic failure modes. Code and reconstruction recipes are available at GHGbench.

GHGbench: A Unified Multi-Entity, Multi-Task Benchmark for Carbon Emission Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理