Green or Fast? Learning to Balance Cold Starts and Idle Carbon in Serverless Computing
作者: Bowen Sun, Christos D. Antonopoulos, Evgenia Smirni, Bin Ren, Nikolaos Bellas, Spyros Lalis
分类: cs.DC, cs.AI, cs.PF
发布日期: 2026-02-27
💡 一句话要点
LACE-RL:基于强化学习的Serverless冷启动与碳排放平衡管理框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Serverless计算 深度强化学习 冷启动 碳排放 资源管理 动态调度 延迟优化
📋 核心要点
- 现有静态keep-alive策略无法有效应对serverless计算中冷启动延迟和碳排放之间的动态平衡。
- LACE-RL采用深度强化学习动态调整keep-alive时长,联合优化冷启动概率、延迟成本和实时碳强度。
- 实验表明,LACE-RL在冷启动、碳排放和延迟-碳权衡方面均优于现有策略,接近最优性能。
📝 摘要(中文)
Serverless计算简化了云部署,但也带来了服务延迟和碳排放管理的新挑战。减少冷启动延迟需要保留warm函数实例,而最小化碳排放则倾向于回收空闲资源。时间变化的电网碳强度和不同的工作负载模式使这种平衡更加复杂,静态keep-alive策略效率低下。本文提出了LACE-RL,一个延迟感知和碳效率的管理框架,将serverless pod保留建模为一个序列决策问题。LACE-RL使用深度强化学习来动态调整keep-alive时长,联合建模冷启动概率、函数特定的延迟成本和实时碳强度。使用华为公有云跟踪数据,结果表明,与华为的静态策略相比,LACE-RL减少了51.69%的冷启动和77.08%的空闲keep-alive碳排放,同时实现了比最先进的启发式和单目标基线更好的延迟-碳权衡,接近Oracle性能。
🔬 方法详解
问题定义:Serverless计算中,如何有效地管理函数实例的生命周期,以在降低冷启动延迟的同时,最小化因保持空闲实例而产生的碳排放?现有的静态keep-alive策略无法根据动态变化的工作负载和碳强度进行自适应调整,导致资源浪费和碳排放增加。
核心思路:将serverless pod的保留问题建模为一个序列决策问题,利用深度强化学习(DRL)来动态调整keep-alive时长。通过学习环境的动态特性,LACE-RL能够根据实时碳强度、冷启动概率和函数特定的延迟成本,做出最优的资源保留决策,从而在延迟和碳排放之间取得平衡。
技术框架:LACE-RL框架包含以下主要模块:1) 环境建模:对serverless环境进行建模,包括工作负载模式、碳强度变化、冷启动概率和延迟成本等。2) DRL Agent:使用深度强化学习算法(例如,DQN、Actor-Critic)来学习最优的keep-alive策略。Agent根据环境状态选择动作(keep-alive时长),并根据获得的奖励(延迟和碳排放的负反馈)进行学习。3) 策略执行:将学习到的keep-alive策略应用到serverless平台,动态调整函数实例的生命周期。
关键创新:LACE-RL的关键创新在于其利用深度强化学习来解决serverless计算中的资源管理问题,能够根据实时环境动态调整keep-alive策略。与传统的静态策略和启发式方法相比,LACE-RL能够更好地适应动态变化的工作负载和碳强度,从而实现更优的延迟-碳排放权衡。
关键设计:LACE-RL使用深度神经网络来近似Q函数或策略函数。状态空间包括函数ID、时间戳、工作负载特征、碳强度等。动作空间为keep-alive时长。奖励函数的设计至关重要,需要综合考虑冷启动延迟和碳排放成本。损失函数通常采用均方误差损失或交叉熵损失。网络结构的选择取决于具体的DRL算法,例如,DQN可以使用卷积神经网络,Actor-Critic可以使用循环神经网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LACE-RL在华为公有云跟踪数据集上,与华为的静态策略相比,冷启动次数减少了51.69%,空闲keep-alive碳排放减少了77.08%。此外,LACE-RL在延迟-碳排放权衡方面优于现有的启发式和单目标基线方法,性能接近Oracle策略,证明了LACE-RL在实际应用中的有效性。
🎯 应用场景
LACE-RL可应用于各种serverless计算平台,例如AWS Lambda、Azure Functions和Google Cloud Functions。通过优化函数实例的生命周期管理,LACE-RL可以显著降低冷启动延迟,减少碳排放,提高资源利用率,从而为云服务提供商和用户带来经济和环境效益。未来,LACE-RL可以扩展到支持更复杂的资源管理策略,例如函数实例的动态扩缩容和调度。
📄 摘要(原文)
Serverless computing simplifies cloud deployment but introduces new challenges in managing service latency and carbon emissions. Reducing cold-start latency requires retaining warm function instances, while minimizing carbon emissions favors reclaiming idle resources. This balance is further complicated by time-varying grid carbon intensity and varying workload patterns, under which static keep-alive policies are inefficient. We present LACE-RL, a latency-aware and carbon-efficient management framework that formulates serverless pod retention as a sequential decision problem. LACE-RL uses deep reinforcement learning to dynamically tune keep-alive durations, jointly modeling cold-start probability, function-specific latency costs, and real-time carbon intensity. Using the Huawei Public Cloud Trace, we show that LACE-RL reduces cold starts by 51.69% and idle keep-alive carbon emissions by 77.08% compared to Huawei's static policy, while achieving better latency-carbon trade-offs than state-of-the-art heuristic and single-objective baselines, approaching Oracle performance.