GAR: Carbon-Aware Routing for LLM Inference via Constrained Optimization
作者: Disha Sheshanarayana, Rajat Subhra Pal, Manjira Sinha, Tirthankar Dasgupta
分类: cs.AI
发布日期: 2026-05-12
💡 一句话要点
提出GAR:通过约束优化实现LLM推理的碳感知路由
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 碳感知路由 大型语言模型 约束优化 绿色AI 可持续推理
📋 核心要点
- 现有LLM路由方法忽略了碳排放这一重要因素,未能充分利用不同地区和时间段电网碳强度的差异。
- GAR通过约束多目标优化,在保证准确率和延迟的前提下,最小化LLM推理过程中的碳排放。
- 实验表明,GAR在保证性能的同时,显著降低了碳排放,为LLM的可持续部署提供了有效方案。
📝 摘要(中文)
大型语言模型(LLM)的日益普及使得按请求路由对于平衡异构模型池中的响应质量和计算成本至关重要。现有的路由方法很少将可持续能源使用和CO2排放作为优化目标,尽管电网碳强度随时间和地区而变化,且不同模型的能耗差异显著。为了解决这个问题,我们引入了绿色感知路由(GAR),这是一个约束多目标优化框架,旨在最小化每个请求的CO2排放,同时满足明确的准确度下限和p95延迟服务水平目标(SLO)。GAR通过每个数据集的下限调整采用自适应约束优化,并结合了用于正确性、尾部延迟和碳排放的轻量级估计器,从而实现无需额外推理过程的实时路由决策。我们提出了GAR-PD,一种用于滚动碳预算的实用在线原始-对偶路由算法,以及在限制准确度下降的同时实现高可行性覆盖率的启发式变体。在具有异构LLM池(7B-70B)的标准NLP基准上的全面实验表明,GAR在保持竞争力的准确性和p95延迟保证的同时,实现了显著的碳减排,为可持续LLM推理提供了一种实用的、理论上可靠的方法。
🔬 方法详解
问题定义:现有LLM路由方法主要关注性能指标,如准确率和延迟,而忽略了能源消耗和碳排放。随着LLM规模的增大,其能源消耗也日益增加,因此需要一种能够感知碳排放的路由方法,以实现可持续的LLM推理。现有方法无法根据电网碳强度的时空变化动态调整路由策略,导致碳排放效率低下。
核心思路:GAR的核心思路是通过约束优化,在满足准确率和延迟约束的前提下,最小化LLM推理过程中的碳排放。该方法利用轻量级的估计器来预测不同模型的准确率、延迟和碳排放,从而在不增加额外推理开销的情况下做出路由决策。GAR还采用自适应约束优化,根据数据集的特点动态调整准确率下限,以提高可行性覆盖率。
技术框架:GAR的整体框架包括以下几个主要模块:1) 轻量级估计器:用于预测不同模型的准确率、延迟和碳排放;2) 约束优化器:根据预测结果,在满足准确率和延迟约束的前提下,选择碳排放最低的模型进行推理;3) 自适应约束调整器:根据数据集的特点,动态调整准确率下限,以提高可行性覆盖率;4) 在线路由算法:GAR-PD,一种原始-对偶算法,用于处理滚动碳预算。
关键创新:GAR的关键创新在于将碳排放纳入LLM路由的优化目标,并提出了一种实用的、理论上可靠的碳感知路由方法。与现有方法相比,GAR能够显著降低LLM推理过程中的碳排放,同时保证性能。GAR还提出了轻量级估计器和自适应约束优化等技术,以提高路由决策的效率和可行性。
关键设计:GAR使用轻量级模型来估计准确率、延迟和碳排放,避免了额外的推理开销。碳排放的估计基于模型的能耗和电网的碳强度。GAR-PD算法采用原始-对偶方法,根据碳预算动态调整路由策略。自适应约束调整器根据数据集的性能表现,调整准确率下限,以平衡碳排放和准确率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GAR在标准NLP基准测试中,使用异构LLM池(7B-70B),能够在保持竞争力的准确性和p95延迟保证的同时,显著降低碳排放。GAR-PD算法在滚动碳预算下表现良好,启发式变体在限制准确度下降的同时实现了高可行性覆盖率。具体数据提升幅度未知。
🎯 应用场景
GAR可应用于各种需要部署大型语言模型的场景,例如智能客服、机器翻译、文本生成等。通过GAR,可以在保证服务质量的前提下,显著降低LLM推理过程中的碳排放,实现绿色AI。该研究有助于推动人工智能的可持续发展,减少AI对环境的影响,并为相关领域的研究提供参考。
📄 摘要(原文)
The growing deployment of large language models (LLMs) makes per-request routing essential for balancing response quality and computational cost across heterogeneous model pools. Current routing methods rarely consider sustainable energy use and CO2 emissions as optimization objectives, despite grid carbon intensity varying by time and region, and models differing significantly in energy consumption. To address this gap, we introduce Green-Aware Routing (GAR), a constrained multi-objective optimization framework that minimizes per-request CO2 emissions subject to explicit accuracy floors and p95-latency service-level objectives (SLOs). GAR employs adaptive constraint optimization through per-dataset floor tuning and incorporates lightweight estimators for correctness, tail latency, and carbon emissions, enabling real-time routing decisions without additional inference passes. We present GAR-PD, a practical online primal-dual routing algorithm for rolling carbon budgets, alongside heuristic variants that achieve high feasibility coverage while limiting accuracy degradation. Comprehensive experiments across standard NLP benchmarks with heterogeneous LLM pools (7B-70B) demonstrate that GAR achieves substantial carbon reductions while maintaining competitive accuracy and p95 latency guarantees, providing a practical, theoretically grounded approach to sustainable LLM inference.