Intelligent Orchestration of Distributed Large Foundation Model Inference at the Edge

📄 arXiv: 2504.03668v3 📥 PDF

作者: Fernando Koch, Aladin Djuhera, Alecio Binotto

分类: cs.DC, cs.LG

发布日期: 2025-03-19 (更新: 2025-07-12)

备注: 26 pages, 3 figures, 4 tables, 52 references

期刊: Computer Networks and Communications, 2025

DOI: 10.37256/cnc.3220256807


💡 一句话要点

提出自适应分割推理编排框架,解决边缘环境下大模型推理的资源动态分配问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边缘计算 大模型推理 模型分割 资源编排 自适应推理

📋 核心要点

  1. 现有边缘计算中大模型推理的分割策略无法适应动态变化的网络、计算资源和隐私需求。
  2. 提出自适应分割推理编排框架,通过动态调整模型分割和部署位置来优化推理性能。
  3. 论文形式化了联合放置-划分问题,并设计了参考架构和算法流程,适用于多种边缘场景。

📝 摘要(中文)

大型基础模型(LFMs),包括多模态和生成模型,有望为下一代边缘AI应用解锁新的能力。然而,在资源受限和异构的边缘环境(如多接入边缘计算(MEC))中,使用LFM进行推理对工作负载编排提出了重大挑战,因为网络、计算和存储条件随时间变化。特别是,当前的分割推理策略将LFM层跨节点划分,但并未设计为适应高利用率MEC环境中波动的工作负载、动态带宽条件或不断变化的隐私约束。本文提出了一种新的自适应分割推理编排框架,该框架将LFM层的放置和划分都提升为运行时可调变量。具体来说,我们的框架通过扩展传统编排器,提供三个关键服务,从而实现实时、服务质量(QoS)感知的推理工作负载管理:(1)容量感知工作负载分配,持续分析节点资源并选择最佳MEC节点子集;(2)动态分区迁移,透明地重新定位预先切割的LFM段,以响应利用率或网络条件的变化;(3)实时重新配置,动态地重新分割LFM层,以平衡延迟、吞吐量和隐私。我们形式化了联合放置-划分问题,概述了参考架构和算法工作流程,并讨论了在代表性的智慧城市、V2X和工业边缘场景中的适用性。

🔬 方法详解

问题定义:论文旨在解决在资源受限的边缘计算环境中,如何高效地进行大型基础模型(LFM)的推理。现有方法,特别是静态的分割推理策略,无法适应边缘环境中动态变化的网络带宽、计算资源利用率以及隐私约束,导致推理延迟增加、吞吐量下降,甚至无法满足服务质量(QoS)要求。

核心思路:论文的核心思路是将LFM的分割和部署位置都作为运行时可调的变量,通过实时监控边缘节点的资源状况和网络条件,动态地调整LFM的分割方式和各个分割部分的部署位置,从而优化推理性能。这种自适应的方法能够更好地应对边缘环境的动态变化,提高资源利用率,并满足不同的QoS需求。

技术框架:该框架扩展了传统的编排器,增加了三个关键服务模块:(1)容量感知工作负载分配:持续监控边缘节点的计算、存储和网络资源,选择最佳的节点子集进行推理。(2)动态分区迁移:根据资源利用率和网络条件的变化,透明地将预先切割的LFM段迁移到不同的节点。(3)实时重新配置:动态地重新分割LFM层,以平衡延迟、吞吐量和隐私需求。整体流程包括资源监控、决策优化和执行三个阶段。

关键创新:最重要的创新点在于将LFM的分割和部署位置联合优化,并使其能够实时调整。与传统的静态分割方法相比,该方法能够更好地适应边缘环境的动态变化,实现更高效的资源利用和更高的推理性能。此外,该框架还考虑了隐私约束,可以在保证隐私的前提下进行推理。

关键设计:论文形式化了联合放置-划分问题,可能使用了整数规划或强化学习等方法来求解最优的分割和部署方案。具体的损失函数可能包括延迟、吞吐量和隐私损失等。关键参数可能包括分割层的数量、每个分割部分的大小、以及迁移的频率等。具体的网络结构未知,但可以推测使用了某种资源监控和预测模型来预测边缘节点的资源状况。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文摘要中未提供具体的实验数据。但是,该研究提出了一种新的自适应分割推理编排框架,理论上可以显著提高边缘计算环境中LFM推理的性能。通过动态调整模型分割和部署位置,可以更好地适应边缘环境的动态变化,提高资源利用率,并满足不同的QoS需求。未来的实验可以对比该方法与静态分割方法在不同场景下的性能表现,包括延迟、吞吐量和资源利用率等方面。

🎯 应用场景

该研究成果可应用于智慧城市、车联网(V2X)和工业边缘等多种场景。例如,在智慧城市中,可以利用边缘计算资源进行实时视频分析,提高交通管理效率和安全性。在车联网中,可以支持自动驾驶车辆进行实时决策,提高驾驶安全性和舒适性。在工业边缘中,可以实现设备故障预测和质量检测,提高生产效率和产品质量。该研究有望推动边缘AI技术的发展和应用。

📄 摘要(原文)

Large Foundation Models (LFMs), including multi-modal and generative models, promise to unlock new capabilities for next-generation Edge AI applications. However, performing inference with LFMs in resource-constrained and heterogeneous edge environments, such as Multi-access Edge Computing (MEC), presents significant challenges for workload orchestration due to time-varying network, compute, and storage conditions. In particular, current split inference strategies, which partition LFM layers across nodes, are not designed to adapt to fluctuating workloads, dynamic bandwidth conditions, or evolving privacy constraints in high-utilization MEC environments. In this work, we propose a novel adaptive split inference orchestration framework that elevates both the placement and partitioning of LFM layers to runtime-tunable variables. Specifically, our framework enables real-time, quality-of-service (QoS)-aware management of inference workloads by extending conventional orchestrators with three key services: (1) Capacity-aware workload distribution, which continuously profiles node resources and selects an optimal subset of MEC nodes; (2) Dynamic partition migration, which transparently relocates pre-cut LFM segments in response to changes in utilization or network conditions; (3) Real-time reconfiguration, which dynamically re-splits LFM layers to balance latency, throughput, and privacy. We formalize the joint placement-partitioning problem, outline a reference architecture and algorithmic workflow, and discuss applicability in representative smart city, V2X, and industrial edge scenarios.