Deadline-Driven Hierarchical Agentic Resource Sharing for AI Services and RAN Functions in AI-RAN

作者: Haiyuan Li, Yulei Wu, Dimitra Simeonidou

分类: cs.DC, cs.NI, eess.SY

发布日期: 2026-05-08

💡 一句话要点

提出分层代理框架（HAF）以解决AI-RAN中AI服务与RAN功能在多时间尺度下的资源共享难题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI-RAN 边缘计算 资源调度 大语言模型代理 凸优化 服务水平目标 计算卸载

📋 核心要点

核心问题：AI-RAN中实时RAN功能与异构AI服务对计算资源的需求存在时间尺度冲突，且频繁的服务迁移会导致严重的性能中断。
方法要点：提出分层代理框架（HAF），通过LLM代理进行慢时间尺度放置决策，结合闭式凸优化算法处理快时间尺度资源分配，并引入预测性评估器过滤无效迁移。
实验效果：HAF在SLO满足率上达到90.0%，相比基线提升20.5%，在多种负载条件下均表现出稳健的性能优势。

📝 摘要（中文）

AI-RAN将AI服务与无线接入网（RAN）功能整合至边缘的统一GPU加速基础设施中。然而，实时RAN功能与高度异构的AI服务在计算资源共享上存在时间尺度不匹配的问题，且服务在节点间的迁移会带来不可忽视的延迟中断。本文提出了一种用于AI-RAN计算共享的分层代理框架（HAF）。该框架结合了基于大语言模型（LLM）的代理，用于AI服务和RAN功能的慢时间尺度放置决策，以及一种闭式、感知截止时间的凸优化算法，用于快时间尺度的GPU/CPU分配。此外，LLM代理配备了一个预测性评估器（Critic），当服务迁移带来的中断代价超过预期的服务水平目标（SLO）收益时，该评估器会过滤掉不必要的迁移。实验结果表明，HAF实现了90.0%的整体SLO满足率，较最优基线提升了20.5%，并将AI服务请求满足率从51%提高至85.3%。

🔬 方法详解

问题定义：在AI-RAN架构下，如何协调对时延极其敏感的RAN功能与计算密集型AI服务之间的资源竞争。现有方法难以平衡不同时间尺度的调度决策，且盲目的服务迁移会导致服务中断，从而违反严格的SLO要求。

核心思路：采用分层控制策略，将决策解耦为慢时间尺度的“放置决策”与快时间尺度的“资源分配”。利用LLM的推理能力处理复杂的放置逻辑，利用凸优化算法保证实时分配的效率与最优性。

技术框架：框架包含两层：上层为基于LLM的代理，负责全局放置决策；下层为基于凸优化的资源分配器，负责GPU/CPU的实时切片。中间引入预测性评估器（Predictive Critic），作为放置决策的“守门人”，评估迁移带来的中断代价与SLO收益。

关键创新：引入了“代理+优化”的混合决策机制，并创新性地设计了迁移代价评估机制。该机制通过预测模型量化迁移带来的中断影响，避免了因频繁迁移导致的性能抖动，实现了资源利用率与服务质量的动态平衡。

关键设计：LLM代理利用上下文感知能力进行放置规划；快时间尺度分配采用闭式凸优化算法，确保在毫秒级时间内完成资源切片；预测性评估器通过对比迁移前后的SLO预期收益，动态过滤不必要的迁移操作，确保系统稳定性。

🖼️ 关键图片

📊 实验亮点

HAF框架在实验中表现优异，整体SLO满足率达到90.0%，较现有最优基线提升了20.5%。在AI服务请求满足率方面，从51%大幅提升至85.3%。此外，预测性评估器的引入在多种开源LLM代理上均验证了其有效性，证明了该方法在不同负载条件下的鲁棒性与通用性。

🎯 应用场景

该研究主要应用于6G边缘计算与AI-RAN融合网络。通过优化GPU资源在RAN功能与AI服务间的动态分配，该框架可显著提升边缘云平台的资源利用效率，特别适用于自动驾驶、工业物联网及实时视频分析等对时延和可靠性有严苛要求的边缘AI场景。

📄 摘要（原文）

AI-RAN consolidates AI services and Radio Access Network (RAN) functions onto a unified, GPU-accelerated infrastructure at the network edge. However, compute sharing between real-time RAN functions and highly heterogeneous AI services requires coordination of scheduling decisions at mismatched timescales, and placement adaptation may require service migration across nodes with non-negligible interruptions. This paper proposes a hierarchical agentic framework (HAF) for compute sharing in AI-RAN that combines a large language model (LLM)-based agent for slow-timescale placement of AI services and RAN functions with a closed-form, deadline-aware convex algorithm for fast-timescale GPU/CPU allocation. The LLM agent is further equipped with a predictive critic that filters out migrations when the induced service interruption outweighs the expected service-level objective (SLO) benefit. Experimental results show that HAF reaches 90.0% overall SLO fulfillment, a 20.5% improvement over the strongest baseline, and raises AI service request fulfillment from 51% to 85.3%. Further evaluations show that HAF retains its advantage under diverse load conditions, while the critic consistently improves SLO fulfillment across multiple open-source LLM agents.

Deadline-Driven Hierarchical Agentic Resource Sharing for AI Services and RAN Functions in AI-RAN

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理