Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents
作者: Yuanhao Li, Haozhe Wang, Geyong Min, Nektarios Georgalas, Wang Miao
分类: cs.AI, cs.NI
发布日期: 2026-03-11
💡 一句话要点
提出基于自精调Agent的自适应RAN切片控制方法,无需人工奖励。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自精调 无线接入网切片 生成式AI 自主学习 多目标优化
📋 核心要点
- 现有方法在连续控制任务中面临上下文窗口有限、缺乏显式奖励信号以及长上下文退化等问题。
- 论文提出一种自精调框架,通过将经验提炼到Agent参数中,实现持续学习,无需人工奖励。
- 实验表明,该框架在RAN切片任务中,样本效率、稳定性和多指标优化方面优于现有方法。
📝 摘要(中文)
本文提出了一种基于生成式AI模型的自精调框架,用于实现自主和自适应控制。该框架通过直接与环境交互,持续学习,无需人工设计的奖励信号。它采用双视角反思机制,生成自主的语言反馈,从交互历史中构建偏好数据集。随后的基于偏好的微调过程将长期经验提炼到模型的参数中。在动态无线接入网(RAN)切片任务上的评估结果表明,该框架在样本效率、稳定性和多指标优化方面优于标准强化学习基线和现有的基于大型语言模型的Agent。该研究展示了自改进生成式Agent在连续控制任务中的潜力,为未来的AI原生网络基础设施铺平了道路。
🔬 方法详解
问题定义:论文旨在解决动态无线接入网(RAN)切片中的多目标优化问题,即在频谱效率、服务质量和重配置稳定性之间进行权衡。现有方法,如传统的强化学习方法,通常需要人工设计的奖励函数,这既耗时又难以适应动态变化的网络环境。而基于大型语言模型(LLM)的Agent,虽然具有一定的泛化能力,但受限于上下文窗口大小,难以处理长期依赖关系,且缺乏有效的经验内化机制。
核心思路:论文的核心思路是让Agent通过与环境的直接交互,自主学习并不断改进,而无需人工设计的奖励信号。通过将长期经验提炼到Agent的参数中,克服了LLM上下文窗口的限制,并实现了经验的有效内化。这种自精调的方法使得Agent能够更好地适应动态变化的网络环境,并实现多目标优化。
技术框架:该框架包含以下几个主要模块:1) Agent与环境交互,收集交互历史数据;2) 双视角反思机制,Agent从自身和他者的角度对交互历史进行反思,生成语言反馈;3) 基于语言反馈构建偏好数据集;4) 基于偏好数据集对Agent进行微调,将长期经验提炼到模型参数中。整个流程是一个闭环的自学习过程,Agent通过不断与环境交互、反思和微调,逐步提升自身的控制能力。
关键创新:该论文最重要的技术创新点在于提出了基于双视角反思的自精调框架,该框架能够让Agent在没有人工奖励信号的情况下,自主学习并不断改进。与传统的强化学习方法相比,该方法无需人工设计奖励函数,降低了开发成本,并提高了泛化能力。与现有的基于LLM的Agent相比,该方法通过将经验提炼到模型参数中,克服了上下文窗口的限制,并实现了经验的有效内化。
关键设计:双视角反思机制是关键设计之一,Agent分别从自身和他者的角度对交互历史进行反思,生成更全面、更客观的语言反馈。基于偏好的微调过程采用了一种对比学习的方法,通过比较不同交互轨迹的优劣,来更新Agent的参数。具体的损失函数设计和网络结构细节在论文中未详细说明,属于未知内容。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在动态RAN切片任务中,在样本效率、稳定性和多指标优化方面均优于标准强化学习基线和现有的基于LLM的Agent。具体而言,该框架在频谱效率、服务质量和重配置稳定性等多个指标上均取得了显著提升,并且在面对动态变化的网络环境时,表现出更强的鲁棒性。具体的性能提升数据在论文中未明确给出,属于未知内容。
🎯 应用场景
该研究成果可应用于各种需要自主和自适应控制的场景,例如无线接入网(RAN)切片、智能交通系统、机器人控制等。通过该方法,可以降低人工干预的需求,提高系统的自动化程度和适应能力,从而实现更高效、更可靠的运行。未来,该方法有望推动AI原生网络基础设施的发展,为各行各业带来更智能、更便捷的服务。
📄 摘要(原文)
The integration of Generative AI models into AI-native network systems offers a transformative path toward achieving autonomous and adaptive control. However, the application of such models to continuous control tasks is impeded by intrinsic architectural limitations, including finite context windows, the lack of explicit reward signals, and the degradation of the long context. This paper posits that the key to unlocking robust continuous control is enabling agents to internalize experience by distilling it into their parameters, rather than relying on prompt-based memory. To this end, we propose a novel self-finetuning framework that enables agentic systems to learn continuously through direct interaction with the environment, bypassing the need for handcrafted rewards. Our framework implements a bi-perspective reflection mechanism that generates autonomous linguistic feedback to construct preference datasets from interaction history. A subsequent preference-based fine-tuning process distills long-horizon experiences into the model's parameters. We evaluate our approach on a dynamic Radio Access Network (RAN) slicing task, a challenging multi-objective control problem that requires the resolution of acute trade-offs between spectrum efficiency, service quality, and reconfiguration stability under volatile network conditions. Experimental results show that our framework outperforms standard Reinforcement Learning (RL) baselines and existing Large Language Model (LLM)-based agents in sample efficiency, stability, and multi-metric optimization. These findings demonstrate the potential of self-improving generative agents for continuous control tasks, paving the way for future AI-native network infrastructure.