MARLIN: Multi-Agent Game-Theoretic Reinforcement Learning for Sustainable LLM Inference in Cloud Datacenters

作者: H. Moore, S. Qi, D. Milojicic, C. Bash, S. Pasricha

分类: cs.DC, cs.LG

发布日期: 2026-05-13

💡 一句话要点

提出MARLIN，利用多智能体博弈强化学习优化云数据中心LLM推理能耗与延迟。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体强化学习 博弈论 大型语言模型推理 云数据中心 可持续性 能源效率 碳排放 资源管理

📋 核心要点

LLM推理能耗巨大，加剧环境问题，现有方法难以兼顾延迟、能耗、碳排放和水资源消耗。
MARLIN采用多智能体博弈强化学习，每个智能体负责一部分资源管理，通过博弈实现全局优化。
实验表明，MARLIN在降低TTFT、碳排放、用水量和能源成本方面均优于现有技术。

📝 摘要（中文）

大型语言模型（LLM）在云平台中日益普及，这得益于基于人工智能的消费者和企业服务的推出。LLM推理请求占LLM生命周期总能量使用的90%，远超训练能量成本。LLM推理请求的不断增长增加了环境足迹，特别是碳排放和水消耗。为了提高云数据中心环境中LLM推理服务的可持续性，我们提出了一种新颖的多智能体博弈强化学习框架MARLIN，以协同优化与LLM推理相关的时间到首个token（TTFT）、碳排放、用水量和能源成本。与最先进的LLM推理管理框架相比，MARLIN在TTFT上至少降低了18%，碳排放降低了33%，用水量降低了43%，能源成本降低了11%。

🔬 方法详解

问题定义：论文旨在解决云数据中心中大规模LLM推理服务所带来的高能耗和环境影响问题。现有方法通常只关注延迟优化，而忽略了碳排放、水资源消耗等可持续性指标。此外，现有方法难以在多个目标之间进行有效权衡，无法实现全局优化。

核心思路：论文的核心思路是将云数据中心的资源管理问题建模为一个多智能体博弈问题。每个智能体负责一部分资源（例如，服务器、冷却系统），并通过强化学习来优化其自身的策略。智能体之间的交互通过博弈论机制进行协调，从而实现全局的能耗、延迟和环境影响的优化。这种方法允许在多个目标之间进行灵活的权衡，并能够适应动态变化的推理负载。

技术框架：MARLIN框架包含以下主要模块：1) 环境建模：对云数据中心的环境进行建模，包括服务器、冷却系统、网络等资源，以及LLM推理请求的到达模式和资源需求。2) 智能体设计：为每个资源分配一个智能体，智能体通过强化学习来学习最优的资源管理策略。3) 博弈机制：设计智能体之间的博弈机制，例如，基于价格的机制或基于合作的机制，以协调智能体之间的行为。4) 奖励函数设计：设计奖励函数，以鼓励智能体降低能耗、减少碳排放、节约用水，并同时优化延迟。5) 训练和部署：使用强化学习算法训练智能体，并将训练好的策略部署到云数据中心中。

关键创新：MARLIN的关键创新在于将多智能体博弈论与强化学习相结合，用于解决云数据中心中LLM推理服务的可持续性问题。与现有方法相比，MARLIN能够同时优化多个目标，并能够适应动态变化的推理负载。此外，MARLIN的博弈机制能够有效地协调智能体之间的行为，从而实现全局优化。

关键设计：MARLIN的关键设计包括：1) 智能体的状态空间：包括服务器的负载、温度、能耗等信息。2) 智能体的动作空间：包括服务器的频率调整、冷却系统的功率调整等操作。3) 奖励函数：综合考虑延迟、能耗、碳排放和水资源消耗，并使用权重来调整不同目标之间的优先级。4) 强化学习算法：使用Actor-Critic算法来训练智能体，并使用经验回放来提高训练效率。5) 博弈机制：采用基于价格的机制，智能体根据资源的价格来调整其行为。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MARLIN在TTFT上至少降低了18%，碳排放降低了33%，用水量降低了43%，能源成本降低了11%。这些结果表明，MARLIN能够显著提高LLM推理服务的可持续性，并优于现有的LLM推理管理框架。实验对比了MARLIN与多种基线方法，验证了MARLIN的有效性。

🎯 应用场景

MARLIN可应用于各种云数据中心环境，尤其适用于需要大规模LLM推理服务的场景。该研究成果有助于降低LLM推理的能源消耗和环境影响，提高数据中心的可持续性。未来，MARLIN可以扩展到其他类型的AI服务和资源管理问题，具有广阔的应用前景。

📄 摘要（原文）

Large Language Models (LLMs) have become increasingly prevalent in cloud-based platforms, propelled by the introduction of AI-based consumer and enterprise services. LLM inference requests in particular account for up to 90% of total LLM lifecycle energy use, dwarfing training energy costs. The rising volume of LLM inference requests is increasing environmental footprints, particularly carbon emissions and water consumption. To improve sustainability for LLM inference serving in cloud datacenter environments, we propose a novel multi-agent game-theoretic reinforcement learning framework called MARLIN to co-optimize time-to-first token (TTFT), carbon emissions, water usage, and energy costs associated with LLM inference. MARLIN demonstrates a reduction of at least 18% in TTFT, 33% in carbon emissions, 43% in water usage, and 11% in energy costs compared to state-of-the-art LLM inference management frameworks.

MARLIN: Multi-Agent Game-Theoretic Reinforcement Learning for Sustainable LLM Inference in Cloud Datacenters

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理