SLA-Aware Distributed LLM Inference Across Device-RAN-Cloud

作者: Hariz Yet, Nguyen Thanh Tam, Mao V. Ngo, Lim Yi Shen, Lin Wei, Jihong Park, Binbin Chen, Tony Q. S. Quek

分类: cs.NI, cs.AI

发布日期: 2026-02-27

备注: Accepted to IEEE INFOCOM Workshops 2026 (6G AI-RAN 2026), Tokyo, Japan. This arXiv version is a preprint / author version

💡 一句话要点

提出面向Device-RAN-Cloud异构环境的SLA感知分布式LLM推理方案。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 分布式推理 边缘计算 LLM推理 服务等级协议 5G AI-RAN 量化模型

📋 核心要点

现有方法难以在异构的Device-RAN-Cloud环境中，同时满足低延迟推理需求和保障基带处理的稳定性。
论文提出一种SLA感知的分布式LLM推理方案，通过在不同层级部署不同模型变体，优化推理延迟。
实验结果表明，在RAN边缘使用量化模型可满足亚秒级延迟需求，而MIG隔离技术保障了基带处理的稳定性。

📝 摘要（中文）

具身智能需要在无线接入网（RAN）附近进行亚秒级推理，但部署跨越异构层级（设备端、RAN边缘、云端），且不能中断实时基带处理。本文报告了使用固定基线策略以保证可重复性的5G独立组网（SA）AI-RAN测试平台的测量结果。该设置包括设备端层、一个共同托管容器化5G RAN的三节点RAN边缘集群和一个云端层。研究发现，设备端执行仍然需要数秒，无法满足亚秒级预算。在RAN边缘，SLA可行性主要由模型变体选择决定：量化模型集中在0.5秒以下，而未量化和一些较大的量化模型由于停顿和排队导致错过截止时间。在云端层，在测量的WAN路径上满足0.5秒的截止时间具有挑战性（高达32.9％的请求在0.5秒内完成），但所有评估的变体都满足1.0秒的截止时间（100％在1.0秒内完成）。在饱和下行链路流量和高达N=20个并发推理客户端的情况下，多实例GPU（MIG）隔离保留了基带定时健康代理，支持在固定分区下的安全共址。

🔬 方法详解

问题定义：论文旨在解决在Device-RAN-Cloud异构环境中，如何高效地进行LLM推理，同时满足严格的服务等级协议（SLA）和保障无线接入网（RAN）基带处理的稳定性。现有方法要么无法满足低延迟需求（如仅在云端推理），要么会影响RAN的实时性能（如设备端推理占用过多资源）。

核心思路：论文的核心思路是根据不同层级的计算能力和网络条件，选择合适的模型变体进行分布式推理。通过在RAN边缘部署量化模型，可以在满足延迟需求的同时，降低计算负载。同时，利用多实例GPU（MIG）隔离技术，保障基带处理的稳定性。

技术框架：整体架构包括设备端、RAN边缘和云端三个层级。设备端负责数据采集和预处理，RAN边缘负责快速推理，云端负责处理更复杂的推理任务。论文重点关注RAN边缘的推理性能和对基带处理的影响。测试平台使用5G独立组网（SA）AI-RAN测试平台，包括一个三节点RAN边缘集群，共同托管容器化的5G RAN。

关键创新：论文的关键创新在于提出了SLA感知的模型部署策略，并验证了在RAN边缘使用量化模型进行低延迟推理的可行性。此外，论文还验证了MIG隔离技术在保障基带处理稳定性方面的有效性。

关键设计：论文评估了不同模型变体（包括量化和未量化模型）在不同层级的推理延迟。在RAN边缘，论文研究了模型大小和量化对推理延迟的影响。论文还使用了基带定时健康代理来评估推理对基带处理的影响。MIG的配置是关键，需要根据实际负载进行调整，以平衡推理性能和基带处理稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在RAN边缘使用量化模型可以将推理延迟降低到0.5秒以下，满足亚秒级延迟需求。同时，MIG隔离技术可以有效地保护基带处理的稳定性，即使在高并发推理负载下，也能保证基站的正常运行。在云端，虽然满足0.5秒延迟具有挑战性，但所有模型变体均能满足1.0秒延迟。

🎯 应用场景

该研究成果可应用于各种需要低延迟和高可靠性的具身智能应用，例如自动驾驶、智能制造、AR/VR等。通过在RAN边缘进行快速推理，可以减少网络延迟，提高响应速度，从而改善用户体验。此外，该研究还有助于推动AI与5G的融合，为未来的智能网络发展提供参考。

📄 摘要（原文）

Embodied AI requires sub-second inference near the Radio Access Network (RAN), but deployments span heterogeneous tiers (on-device, RAN-edge, cloud) and must not disrupt real-time baseband processing. We report measurements from a 5G Standalone (SA) AI-RAN testbed using a fixed baseline policy for repeatability. The setup includes an on-device tier, a three-node RAN-edge cluster co-hosting a containerized 5G RAN, and a cloud tier. We find that on-device execution remains multi-second and fails to meet sub-second budgets. At the RAN edge, SLA feasibility is primarily determined by model variant choice: quantized models concentrate below 0.5\,s, while unquantized and some larger quantized models incur deadline misses due to stalls and queuing. In the cloud tier, meeting a 0.5\,s deadline is challenging on the measured WAN path (up to 32.9\% of requests complete within 0.5\,s), but all evaluated variants meet a 1.0\,s deadline (100\% within 1.0\,s). Under saturated downlink traffic and up to $N{=}20$ concurrent inference clients, Multi-Instance GPU (MIG) isolation preserves baseband timing-health proxies, supporting safe co-location under fixed partitioning.

SLA-Aware Distributed LLM Inference Across Device-RAN-Cloud

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理