When Adaptive Rewards Hurt: Causal Probing and the Switching-Stability Dilemma in LLM-Guided LEO Satellite Scheduling

📄 arXiv: 2604.03562 📥 PDF

作者: Yuanhang Li

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

揭示自适应奖励陷阱:因果探测与LLM在LEO卫星调度中的切换-稳定性困境

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LEO卫星调度 深度强化学习 自适应奖励 因果探测 PPO算法

📋 核心要点

  1. 现有自适应奖励方法在LEO卫星调度中表现不佳,原因在于动态奖励权重破坏了PPO算法的价值函数收敛。
  2. 提出单变量因果探测方法,通过独立扰动奖励项来分析PPO的响应,揭示了违反直觉的权重影响。
  3. 实验表明,精心设计的静态奖励权重优于动态权重,且MLP在已知和新流量状态下均表现出色。

📝 摘要(中文)

本文研究了多波束LEO卫星调度中深度强化学习(DRL)的自适应奖励设计,旨在验证 regime-aware 奖励权重优于静态权重的直觉。研究发现了一个切换-稳定性困境:近乎恒定的奖励权重(342.1 Mbps)优于精心调整的动态权重(103.3+/-96.8 Mbps),因为PPO需要准静态奖励信号才能实现价值函数的收敛。权重自适应会因重复重启收敛而降低性能。为了理解特定权重的重要性,本文提出了一种单变量因果探测方法,独立扰动每个奖励项+/-20%,并测量50k步后的PPO响应。探测揭示了违反直觉的杠杆作用:切换惩罚增加+20%可为极地切换带来+157 Mbps,为冷热区域带来+130 Mbps。本文评估了四种MDP架构变体(固定、基于规则、学习的MLP、微调的LLM)在已知和新流量状态下的性能。MLP在已知状态下达到357.9 Mbps,在新状态下达到325.2 Mbps,而微调的LLM由于权重振荡而崩溃至45.3+/-43.0 Mbps。研究结果为通信系统中LLM-DRL集成提供了一个经验基础的路线图,确定了LLM增加不可替代价值(自然语言意图理解)的地方,以及更简单的方法就足够的地方。

🔬 方法详解

问题定义:论文旨在解决低地球轨道(LEO)卫星调度问题,目标是最大化数据吞吐量。现有方法,特别是基于自适应奖励的深度强化学习方法,在实际应用中表现不佳。痛点在于,虽然直觉上认为根据不同状态调整奖励权重可以提升性能,但实验结果却显示动态权重反而导致性能下降。

核心思路:论文的核心思路是揭示自适应奖励在LEO卫星调度中失效的原因,并提出一种因果探测方法来理解奖励权重对性能的影响。通过分析奖励权重与性能之间的关系,找到最优的奖励权重配置,并避免动态权重带来的不稳定问题。

技术框架:论文的技术框架主要包括以下几个部分:1) 基于PPO的强化学习算法;2) 四种不同的MDP架构变体(固定权重、规则权重、MLP权重、LLM权重);3) 单变量因果探测方法,用于分析奖励权重对性能的影响。整体流程是,首先使用不同的MDP架构训练PPO智能体,然后使用因果探测方法分析奖励权重与性能之间的关系,最后比较不同架构的性能。

关键创新:论文最重要的技术创新点是提出了单变量因果探测方法。该方法通过独立扰动每个奖励项,并测量PPO的响应,从而揭示了奖励权重对性能的因果关系。这种方法可以帮助研究人员理解奖励函数的设计对强化学习算法的影响,并找到最优的奖励权重配置。与现有方法相比,该方法能够更深入地理解奖励函数的作用机制,而不仅仅是依赖经验或启发式方法。

关键设计:论文的关键设计包括:1) 使用PPO作为强化学习算法,因为它是一种常用的、稳定的算法;2) 设计了四种不同的MDP架构变体,用于比较不同奖励权重配置的性能;3) 使用单变量因果探测方法,通过扰动奖励项来分析奖励权重对性能的影响;4) 针对LEO卫星调度问题,设计了合适的奖励函数,包括切换惩罚等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,近乎恒定的奖励权重(342.1 Mbps)优于动态权重(103.3+/-96.8 Mbps)。单变量因果探测揭示,切换惩罚增加+20%可为极地切换带来+157 Mbps,为冷热区域带来+130 Mbps。MLP在已知状态下达到357.9 Mbps,在新状态下达到325.2 Mbps,优于微调的LLM(45.3+/-43.0 Mbps)。

🎯 应用场景

该研究成果可应用于通信卫星网络优化、资源调度和智能管理等领域。通过理解奖励函数与系统性能之间的因果关系,可以设计更有效的强化学习算法,提升卫星网络的吞吐量和稳定性,并为未来天地一体化网络的智能化管理提供理论指导。

📄 摘要(原文)

Adaptive reward design for deep reinforcement learning (DRL) in multi-beam LEO satellite scheduling is motivated by the intuition that regime-aware reward weights should outperform static ones. We systematically test this intuition and uncover a switching-stability dilemma: near-constant reward weights (342.1 Mbps) outperform carefully-tuned dynamic weights (103.3+/-96.8 Mbps) because PPO requires a quasistationary reward signal for value function convergence. Weight adaptation-regardless of quality-degrades performance by repeatedly restarting convergence. To understand why specific weights matter, we introduce a single-variable causal probing method that independently perturbs each reward term by +/-20% and measures PPO response after 50k steps. Probing reveals counterintuitive leverage: a +20% increase in the switching penalty yields +157 Mbps for polar handover and +130 Mbps for hot-cold regimes-findings inaccessible to human experts or trained MLPs without systematic probing. We evaluate four MDP architect variants (fixed, rule-based, learned MLP, finetuned LLM) across known and novel traffic regimes. The MLP achieves 357.9 Mbps on known regimes and 325.2 Mbps on novel regimes, while the fine-tuned LLM collapses to 45.3+/-43.0 Mbps due to weight oscillation rather than lack of domain knowledge-output consistency, not knowledge, is the binding constraint. Our findings provide an empirically-grounded roadmap for LLM-DRL integration in communication systems, identifying where LLMs add irreplaceable value (natural language intent understanding) versus where simpler methods suffice.