SIA: Symbolic Interpretability for Anticipatory Deep Reinforcement Learning in Network Control

作者: MohammadErfan Jabbari, Abhishek Duttagupta, Claudio Fiandrino, Leonardo Bonati, Salvatore D'Oro, Michele Polese, Marco Fiore, Tommaso Melodia

分类: cs.NI, cs.AI

发布日期: 2026-01-29

备注: 10 pages, 12 figures, accepted at IEEE INFOCOM 2026

💡 一句话要点

SIA：用于网络控制中预测性深度强化学习的符号可解释性框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 可解释性AI 网络控制 知识图谱 符号AI 预测性控制 移动网络

📋 核心要点

现有DRL智能体在网络控制中缺乏对未来KPI预测的利用，导致控制策略的反应性。
SIA通过融合符号AI和知识图，为预测增强的DRL智能体提供实时可解释性，揭示决策依据。
实验表明，SIA能发现预测集成和奖励设计中的问题，并指导智能体改进，提升网络性能。

📝 摘要（中文）

深度强化学习(DRL)有望为未来移动网络提供自适应控制，但传统智能体仍然是被动的：它们根据过去和当前的测量结果采取行动，无法利用带宽等外生KPI的短期预测。利用预测增强智能体可以克服这种时间短视，但由于预测感知智能体充当黑盒，因此在网络中的应用很少；运营商无法判断预测是否指导决策或证明增加的复杂性是合理的。我们提出了SIA，这是第一个实时揭示预测增强DRL智能体如何运作的解释器。SIA将符号AI抽象与每个KPI的知识图融合以产生解释，并包括一个新的影响评分指标。SIA实现了亚毫秒级的速度，比现有的XAI方法快200倍以上。我们在三个不同的网络用例中评估了SIA，揭示了隐藏的问题，包括预测集成中的时间错位和触发反生产策略的奖励设计偏差。这些见解能够进行有针对性的修复：重新设计的智能体在视频流中实现了平均比特率提高9%，SIA的在线行动改进模块在不重新训练的情况下将RAN切片奖励提高了25%。通过使预测性DRL透明且可调，SIA降低了下一代移动网络中主动控制的门槛。

🔬 方法详解

问题定义：现有基于DRL的网络控制方法主要依赖于历史和当前的网络状态信息进行决策，无法有效利用未来网络状态的预测信息。直接将预测信息输入DRL智能体，虽然可能提升性能，但由于缺乏可解释性，运营商难以信任和部署，并且难以发现潜在的问题，例如预测偏差或奖励函数设计不合理等。

核心思路：SIA的核心思路是通过符号AI抽象和知识图谱，将DRL智能体的决策过程转化为人类可理解的符号表示，从而提供可解释性。具体来说，SIA将网络KPI（如带宽、延迟等）的预测值和DRL智能体的动作映射到符号化的状态和动作，并构建知识图谱来表示它们之间的关系。通过分析知识图谱，可以理解DRL智能体做出特定决策的原因。

技术框架：SIA框架主要包含以下几个模块：1) KPI预测模块：负责对网络KPI进行短期预测。2) 符号化模块：将KPI预测值和DRL智能体的动作进行符号化，例如将带宽预测值分为“高”、“中”、“低”三个等级。3) 知识图谱构建模块：根据符号化的状态和动作，构建知识图谱，表示它们之间的关系。4) 解释模块：分析知识图谱，生成人类可理解的解释，例如“当预测带宽为高时，DRL智能体选择动作A”。5) 影响评分模块：计算每个KPI对DRL智能体决策的影响程度，帮助识别关键KPI。6) 行动优化模块：基于SIA的解释，对DRL智能体的动作进行优化，提升性能。

关键创新：SIA的关键创新在于将符号AI抽象和知识图谱应用于DRL智能体的可解释性分析。与传统的XAI方法相比，SIA能够提供更具语义信息的解释，并且速度更快。此外，SIA还提出了一个新的影响评分指标，用于衡量每个KPI对DRL智能体决策的影响程度。

关键设计：SIA的关键设计包括：1) 符号化方法：采用基于分位数的方法对KPI预测值进行符号化，以适应不同的KPI分布。2) 知识图谱的构建：使用RDF三元组来表示符号化的状态、动作和它们之间的关系。3) 影响评分的计算：基于知识图谱中的路径，计算每个KPI对DRL智能体决策的影响程度。4) 行动优化：使用SIA的解释来指导DRL智能体的动作选择，例如避免选择导致负面结果的动作。

🖼️ 关键图片

📊 实验亮点

在三个不同的网络用例中，SIA成功揭示了预测集成中的时间错位和奖励设计偏差等问题。通过对DRL智能体进行针对性修复，视频流的平均比特率提高了9%，RAN切片奖励提高了25%。SIA的运行速度极快，比现有XAI方法快200倍以上，使其能够进行实时在线分析和优化。

🎯 应用场景

SIA可应用于各种网络控制场景，例如无线资源管理、流量工程、网络切片等。通过提供可解释性，SIA可以帮助运营商更好地理解和信任DRL智能体的决策，从而降低部署门槛。此外，SIA还可以帮助发现网络中的潜在问题，并指导智能体进行优化，提升网络性能。SIA有望推动DRL在下一代移动网络中的广泛应用。

📄 摘要（原文）

Deep reinforcement learning (DRL) promises adaptive control for future mobile networks but conventional agents remain reactive: they act on past and current measurements and cannot leverage short-term forecasts of exogenous KPIs such as bandwidth. Augmenting agents with predictions can overcome this temporal myopia, yet uptake in networking is scarce because forecast-aware agents act as closed-boxes; operators cannot tell whether predictions guide decisions or justify the added complexity. We propose SIA, the first interpreter that exposes in real time how forecast-augmented DRL agents operate. SIA fuses Symbolic AI abstractions with per-KPI Knowledge Graphs to produce explanations, and includes a new Influence Score metric. SIA achieves sub-millisecond speed, over 200x faster than existing XAI methods. We evaluate SIA on three diverse networking use cases, uncovering hidden issues, including temporal misalignment in forecast integration and reward-design biases that trigger counter-productive policies. These insights enable targeted fixes: a redesigned agent achieves a 9% higher average bitrate in video streaming, and SIA's online Action-Refinement module improves RAN-slicing reward by 25% without retraining. By making anticipatory DRL transparent and tunable, SIA lowers the barrier to proactive control in next-generation mobile networks.

SIA: Symbolic Interpretability for Anticipatory Deep Reinforcement Learning in Network Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理