Deadline-Driven Hierarchical Agentic Resource Sharing for AI Services and RAN Functions in AI-RAN
作者: Haiyuan Li, Yulei Wu, Dimitra Simeonidou
分类: cs.DC, cs.NI, eess.SY
发布日期: 2026-05-08
💡 一句话要点
提出分层代理框架(HAF)以解决AI-RAN中AI服务与RAN功能在多时间尺度下的资源共享难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI-RAN 边缘计算 资源调度 大语言模型代理 凸优化 服务水平目标 计算卸载
📋 核心要点
- 核心问题:AI-RAN中实时RAN功能与异构AI服务对计算资源的需求存在时间尺度冲突,且频繁的服务迁移会导致严重的性能中断。
- 方法要点:提出分层代理框架(HAF),通过LLM代理进行慢时间尺度放置决策,结合闭式凸优化算法处理快时间尺度资源分配,并引入预测性评估器过滤无效迁移。
- 实验效果:HAF在SLO满足率上达到90.0%,相比基线提升20.5%,在多种负载条件下均表现出稳健的性能优势。
📝 摘要(中文)
AI-RAN将AI服务与无线接入网(RAN)功能整合至边缘的统一GPU加速基础设施中。然而,实时RAN功能与高度异构的AI服务在计算资源共享上存在时间尺度不匹配的问题,且服务在节点间的迁移会带来不可忽视的延迟中断。本文提出了一种用于AI-RAN计算共享的分层代理框架(HAF)。该框架结合了基于大语言模型(LLM)的代理,用于AI服务和RAN功能的慢时间尺度放置决策,以及一种闭式、感知截止时间的凸优化算法,用于快时间尺度的GPU/CPU分配。此外,LLM代理配备了一个预测性评估器(Critic),当服务迁移带来的中断代价超过预期的服务水平目标(SLO)收益时,该评估器会过滤掉不必要的迁移。实验结果表明,HAF实现了90.0%的整体SLO满足率,较最优基线提升了20.5%,并将AI服务请求满足率从51%提高至85.3%。
🔬 方法详解
问题定义:在AI-RAN架构下,如何协调对时延极其敏感的RAN功能与计算密集型AI服务之间的资源竞争。现有方法难以平衡不同时间尺度的调度决策,且盲目的服务迁移会导致服务中断,从而违反严格的SLO要求。
核心思路:采用分层控制策略,将决策解耦为慢时间尺度的“放置决策”与快时间尺度的“资源分配”。利用LLM的推理能力处理复杂的放置逻辑,利用凸优化算法保证实时分配的效率与最优性。
技术框架:框架包含两层:上层为基于LLM的代理,负责全局放置决策;下层为基于凸优化的资源分配器,负责GPU/CPU的实时切片。中间引入预测性评估器(Predictive Critic),作为放置决策的“守门人”,评估迁移带来的中断代价与SLO收益。
关键创新:引入了“代理+优化”的混合决策机制,并创新性地设计了迁移代价评估机制。该机制通过预测模型量化迁移带来的中断影响,避免了因频繁迁移导致的性能抖动,实现了资源利用率与服务质量的动态平衡。
关键设计:LLM代理利用上下文感知能力进行放置规划;快时间尺度分配采用闭式凸优化算法,确保在毫秒级时间内完成资源切片;预测性评估器通过对比迁移前后的SLO预期收益,动态过滤不必要的迁移操作,确保系统稳定性。
🖼️ 关键图片
📊 实验亮点
HAF框架在实验中表现优异,整体SLO满足率达到90.0%,较现有最优基线提升了20.5%。在AI服务请求满足率方面,从51%大幅提升至85.3%。此外,预测性评估器的引入在多种开源LLM代理上均验证了其有效性,证明了该方法在不同负载条件下的鲁棒性与通用性。
🎯 应用场景
该研究主要应用于6G边缘计算与AI-RAN融合网络。通过优化GPU资源在RAN功能与AI服务间的动态分配,该框架可显著提升边缘云平台的资源利用效率,特别适用于自动驾驶、工业物联网及实时视频分析等对时延和可靠性有严苛要求的边缘AI场景。
📄 摘要(原文)
AI-RAN consolidates AI services and Radio Access Network (RAN) functions onto a unified, GPU-accelerated infrastructure at the network edge. However, compute sharing between real-time RAN functions and highly heterogeneous AI services requires coordination of scheduling decisions at mismatched timescales, and placement adaptation may require service migration across nodes with non-negligible interruptions. This paper proposes a hierarchical agentic framework (HAF) for compute sharing in AI-RAN that combines a large language model (LLM)-based agent for slow-timescale placement of AI services and RAN functions with a closed-form, deadline-aware convex algorithm for fast-timescale GPU/CPU allocation. The LLM agent is further equipped with a predictive critic that filters out migrations when the induced service interruption outweighs the expected service-level objective (SLO) benefit. Experimental results show that HAF reaches 90.0% overall SLO fulfillment, a 20.5% improvement over the strongest baseline, and raises AI service request fulfillment from 51% to 85.3%. Further evaluations show that HAF retains its advantage under diverse load conditions, while the critic consistently improves SLO fulfillment across multiple open-source LLM agents.