Quantifying the Energy Floor: Direct Measurement and Replay Buffer Bias in SAC-Based HVAC Control on sbsim
作者: Bo Li, Chen Zhang
分类: cs.LG
发布日期: 2026-06-01
备注: 5 pages, 3 figures, 2 tables. Presented at AI-DEEDS 2026 Workshop, ACM Sustainability Week, Banff, Canada (non-archival)
💡 一句话要点
量化能源下限:SAC在sbsim上HVAC控制的直接测量与回放缓冲区偏差分析
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 SAC算法 HVAC控制 能源效率 回放缓冲区 建筑模拟 能源下限
📋 核心要点
- 现有基于SAC的HVAC控制在实际应用中存在次优性,难以达到理论上的能源效率下限。
- 通过直接测量和消融实验,量化了能源下限,并分析了回放缓冲区初始化对性能的影响。
- 实验表明,回放缓冲区初始化是次优性的主要来源,设备最小功率是性能瓶颈。
📝 摘要(中文)
本文量化了能源下限,即在sbsim校准建筑模拟器上,基于软演员-评论家(SAC)的暖通空调(HVAC)控制在动作空间约束下的最小可实现成本。通过最小动作实验,我们直接测量到该下限为35.51美元/天,主要由连续电力负荷(35.44美元,99.8%)构成,气体消耗可忽略不计。标准的SAC基线,使用调度策略回放缓冲区转换进行初始化,收敛到37.18美元/天,比下限高4.7%。我们发现缓冲区初始化是这种次优性的主要来源:从空缓冲区训练可将成本降低到35.57美元/天,消除了96%的差距。将供水温度范围扩大10 K几乎没有额外的节省(0.03美元/天),进一步扩大则会触发物理约束违规。此外,我们还发现了一个折扣因子耦合(gamma_eff = 0.891),将有效规划范围从8.3小时缩短到46分钟——这是一个需要审计的基准范围问题。对规划范围、奖励权重和观察丰富度的系统性消融实验证实,所有预填充缓冲区的配置都聚集在0.7%以内(37.18美元--37.42美元),表明设备最小功率而非算法设计施加了约束。
🔬 方法详解
问题定义:论文旨在解决基于SAC的HVAC控制在sbsim模拟器上运行时,无法达到理论最优能耗的问题。现有方法依赖于预填充的回放缓冲区,这可能导致算法陷入局部最优,无法充分利用HVAC系统的节能潜力。此外,论文还关注了折扣因子对规划范围的影响,以及系统约束对性能的限制。
核心思路:论文的核心思路是通过直接测量能源下限,并分析不同初始化策略对SAC性能的影响,从而揭示次优性的来源。通过从空缓冲区开始训练,可以避免预填充缓冲区带来的偏差。此外,论文还通过消融实验,评估了不同因素对性能的影响,从而确定了设备最小功率是主要的性能瓶颈。
技术框架:论文采用基于SAC的强化学习框架,用于HVAC控制。整体流程包括:1) 在sbsim模拟器上运行HVAC系统;2) 使用SAC算法训练控制策略;3) 通过直接测量和消融实验,分析性能瓶颈;4) 评估不同初始化策略和参数设置对性能的影响。
关键创新:论文最重要的技术创新点在于,通过直接测量能源下限,量化了SAC算法的次优性。与现有方法相比,论文更加关注实际系统约束和初始化策略对性能的影响。此外,论文还揭示了折扣因子对规划范围的影响,这对于理解和改进强化学习算法在HVAC控制中的应用具有重要意义。
关键设计:论文的关键设计包括:1) 使用sbsim模拟器作为HVAC系统的仿真环境;2) 采用SAC算法作为控制策略;3) 设计最小动作实验,直接测量能源下限;4) 通过消融实验,评估不同因素对性能的影响;5) 分析折扣因子对规划范围的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,标准的SAC基线比能源下限高4.7%(37.18美元/天 vs 35.51美元/天)。通过从空缓冲区训练,可以将成本降低到35.57美元/天,消除了96%的差距。扩大供水温度范围几乎没有额外的节省(0.03美元/天),表明设备最小功率是主要的性能瓶颈。此外,研究还发现折扣因子耦合导致有效规划范围显著缩短。
🎯 应用场景
该研究成果可应用于智能建筑节能控制领域,通过优化HVAC系统的运行策略,降低能源消耗和运营成本。研究结果有助于开发更高效、更智能的HVAC控制系统,提升建筑的能源利用效率,并为实现可持续发展目标做出贡献。此外,该研究方法也适用于其他复杂系统的优化控制问题。
📄 摘要(原文)
We quantify the energy floor -- the minimum achievable cost given action space constraints -- for Soft Actor-Critic (SAC) HVAC control on the sbsim calibrated building simulator. Through minimum-action experiments, we directly measure this floor at USD 35.51/day, dominated by continuous electrical loads (USD 35.44, 99.8%) with negligible gas consumption. The standard SAC baseline, initialized with schedule-policy replay buffer transitions, converges to USD 37.18/day, 4.7% above the floor. We identify buffer initialization as the dominant source of sub-optimality in this scenario: training from an empty buffer reduces cost to USD 35.57/day, eliminating 96% of the gap. Expanding the supply water temperature range by 10 K yields negligible additional savings (USD 0.03/day), and further expansion triggers physical constraint violations. We additionally uncover a discount factor coupling (gamma_eff = 0.891) shrinking the effective planning horizon from 8.3 h to 46 min -- a benchmark-wide issue warranting audit. Systematic ablation across planning horizon, reward weights, and observation enrichment confirms all pre-filled-buffer configurations cluster within 0.7% (USD 37.18--USD 37.42), demonstrating that equipment minimum power -- not algorithmic design -- imposes the binding constraint.