Green or Fast? Learning to Balance Cold Starts and Idle Carbon in Serverless Computing

作者: Bowen Sun, Christos D. Antonopoulos, Evgenia Smirni, Bin Ren, Nikolaos Bellas, Spyros Lalis

分类: cs.DC, cs.AI, cs.PF

发布日期: 2026-02-27

💡 一句话要点

LACE-RL：基于强化学习的Serverless冷启动与碳排放平衡管理框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: Serverless计算 深度强化学习 冷启动 碳排放 资源管理 动态调度 延迟优化

📋 核心要点

现有静态keep-alive策略无法有效应对serverless计算中冷启动延迟和碳排放之间的动态平衡。
LACE-RL采用深度强化学习动态调整keep-alive时长，联合优化冷启动概率、延迟成本和实时碳强度。
实验表明，LACE-RL在冷启动、碳排放和延迟-碳权衡方面均优于现有策略，接近最优性能。

📝 摘要（中文）

Serverless计算简化了云部署，但也带来了服务延迟和碳排放管理的新挑战。减少冷启动延迟需要保留warm函数实例，而最小化碳排放则倾向于回收空闲资源。时间变化的电网碳强度和不同的工作负载模式使这种平衡更加复杂，静态keep-alive策略效率低下。本文提出了LACE-RL，一个延迟感知和碳效率的管理框架，将serverless pod保留建模为一个序列决策问题。LACE-RL使用深度强化学习来动态调整keep-alive时长，联合建模冷启动概率、函数特定的延迟成本和实时碳强度。使用华为公有云跟踪数据，结果表明，与华为的静态策略相比，LACE-RL减少了51.69%的冷启动和77.08%的空闲keep-alive碳排放，同时实现了比最先进的启发式和单目标基线更好的延迟-碳权衡，接近Oracle性能。

🔬 方法详解

问题定义：Serverless计算中，如何有效地管理函数实例的生命周期，以在降低冷启动延迟的同时，最小化因保持空闲实例而产生的碳排放？现有的静态keep-alive策略无法根据动态变化的工作负载和碳强度进行自适应调整，导致资源浪费和碳排放增加。

核心思路：将serverless pod的保留问题建模为一个序列决策问题，利用深度强化学习（DRL）来动态调整keep-alive时长。通过学习环境的动态特性，LACE-RL能够根据实时碳强度、冷启动概率和函数特定的延迟成本，做出最优的资源保留决策，从而在延迟和碳排放之间取得平衡。

技术框架：LACE-RL框架包含以下主要模块：1) 环境建模：对serverless环境进行建模，包括工作负载模式、碳强度变化、冷启动概率和延迟成本等。2) DRL Agent：使用深度强化学习算法（例如，DQN、Actor-Critic）来学习最优的keep-alive策略。Agent根据环境状态选择动作（keep-alive时长），并根据获得的奖励（延迟和碳排放的负反馈）进行学习。3) 策略执行：将学习到的keep-alive策略应用到serverless平台，动态调整函数实例的生命周期。

关键创新：LACE-RL的关键创新在于其利用深度强化学习来解决serverless计算中的资源管理问题，能够根据实时环境动态调整keep-alive策略。与传统的静态策略和启发式方法相比，LACE-RL能够更好地适应动态变化的工作负载和碳强度，从而实现更优的延迟-碳排放权衡。

关键设计：LACE-RL使用深度神经网络来近似Q函数或策略函数。状态空间包括函数ID、时间戳、工作负载特征、碳强度等。动作空间为keep-alive时长。奖励函数的设计至关重要，需要综合考虑冷启动延迟和碳排放成本。损失函数通常采用均方误差损失或交叉熵损失。网络结构的选择取决于具体的DRL算法，例如，DQN可以使用卷积神经网络，Actor-Critic可以使用循环神经网络。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LACE-RL在华为公有云跟踪数据集上，与华为的静态策略相比，冷启动次数减少了51.69%，空闲keep-alive碳排放减少了77.08%。此外，LACE-RL在延迟-碳排放权衡方面优于现有的启发式和单目标基线方法，性能接近Oracle策略，证明了LACE-RL在实际应用中的有效性。

🎯 应用场景

LACE-RL可应用于各种serverless计算平台，例如AWS Lambda、Azure Functions和Google Cloud Functions。通过优化函数实例的生命周期管理，LACE-RL可以显著降低冷启动延迟，减少碳排放，提高资源利用率，从而为云服务提供商和用户带来经济和环境效益。未来，LACE-RL可以扩展到支持更复杂的资源管理策略，例如函数实例的动态扩缩容和调度。

📄 摘要（原文）

Serverless computing simplifies cloud deployment but introduces new challenges in managing service latency and carbon emissions. Reducing cold-start latency requires retaining warm function instances, while minimizing carbon emissions favors reclaiming idle resources. This balance is further complicated by time-varying grid carbon intensity and varying workload patterns, under which static keep-alive policies are inefficient. We present LACE-RL, a latency-aware and carbon-efficient management framework that formulates serverless pod retention as a sequential decision problem. LACE-RL uses deep reinforcement learning to dynamically tune keep-alive durations, jointly modeling cold-start probability, function-specific latency costs, and real-time carbon intensity. Using the Huawei Public Cloud Trace, we show that LACE-RL reduces cold starts by 51.69% and idle keep-alive carbon emissions by 77.08% compared to Huawei's static policy, while achieving better latency-carbon trade-offs than state-of-the-art heuristic and single-objective baselines, approaching Oracle performance.

Green or Fast? Learning to Balance Cold Starts and Idle Carbon in Serverless Computing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理