Diffusion Model-based Reinforcement Learning for Version Age of Information Scheduling: Average and Tail-Risk-Sensitive Control

📄 arXiv: 2601.18069v1 📥 PDF

作者: Haoyuan Pan, Sizhao Chen, Zhaorui Wang, Tse-Tin Chan

分类: cs.NI, cs.AI

发布日期: 2026-01-26

备注: 16 pages, 11 figures


💡 一句话要点

提出基于扩散模型的强化学习算法,用于优化多用户无线系统中的版本信息年龄调度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 版本信息年龄 强化学习 扩散模型 风险敏感 无线调度 条件风险价值 分布强化学习

📋 核心要点

  1. 现有版本信息年龄(VAoI)调度方法主要关注最小化平均VAoI,忽略了可能损害可靠性的严重陈旧事件。
  2. 论文提出基于扩散模型的强化学习算法,显式建模VAoI回报分布,通过优化条件风险价值(CVaR)实现尾部风险控制。
  3. 实验表明,所提出的RS-D3SAC算法在不牺牲平均性能的情况下,显著降低了VAoI的条件风险价值(CVaR)。

📝 摘要(中文)

本文研究了多用户状态更新系统中面向平均和尾部风险敏感的版本信息年龄(VAoI)调度问题,该问题受长期传输成本约束。针对平均VAoI最小化,提出了基于扩散模型的软Actor-Critic算法(D2SAC),通过扩散去噪过程生成动作,增强策略表达能力。在此基础上,提出了风险敏感的深度分布扩散软Actor-Critic算法(RS-D3SAC),该算法集成了基于扩散的Actor和基于分位数的分布Critic,显式地建模了完整的VAoI回报分布。通过条件风险价值(CVaR)进行尾部风险优化,同时满足长期传输成本约束。仿真结果表明,D2SAC降低了平均VAoI,而RS-D3SAC在不牺牲平均性能的情况下,显著降低了CVaR。尾部风险降低的主要增益来自分布Critic,而基于扩散的Actor提供了补充改进,以稳定和丰富策略决策。

🔬 方法详解

问题定义:论文旨在解决多用户无线系统中,在长期传输成本约束下,如何同时优化平均版本信息年龄(VAoI)和降低VAoI的尾部风险的问题。现有方法主要关注平均VAoI的最小化,忽略了极端情况下的高VAoI值,这些情况可能导致系统性能的严重下降。

核心思路:论文的核心思路是利用深度强化学习,特别是结合扩散模型和分布强化学习的方法,来学习一个既能优化平均VAoI,又能有效控制VAoI尾部风险的调度策略。通过显式地建模VAoI回报的分布,并优化条件风险价值(CVaR),算法能够更加关注极端情况,从而提高系统的鲁棒性。

技术框架:论文提出了两种算法:D2SAC和RS-D3SAC。D2SAC是基于扩散模型的软Actor-Critic算法,用于优化平均VAoI。RS-D3SAC则是在D2SAC的基础上,引入了分布Critic,用于显式地建模VAoI回报的分布,并通过优化CVaR来控制尾部风险。整体框架包括环境交互、策略学习(Actor网络)、价值评估(Critic网络)和扩散模型生成动作等模块。

关键创新:论文的关键创新在于将扩散模型和分布强化学习结合起来,用于解决VAoI调度问题。扩散模型能够生成更加多样化的动作,从而提高策略的探索能力。分布Critic能够显式地建模VAoI回报的分布,从而使得算法能够更加关注尾部风险。

关键设计:D2SAC算法使用扩散模型作为Actor网络的一部分,通过扩散过程生成动作。RS-D3SAC算法使用基于分位数的分布Critic,将VAoI回报的分布表示为一组分位数。损失函数包括软Actor-Critic损失和CVaR损失,用于同时优化平均VAoI和控制尾部风险。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,D2SAC算法能够有效降低平均VAoI,而RS-D3SAC算法在不牺牲平均VAoI性能的情况下,能够显著降低VAoI的条件风险价值(CVaR)。具体而言,RS-D3SAC在CVaR指标上取得了显著的性能提升,证明了其在尾部风险控制方面的有效性。实验还表明,分布Critic是尾部风险降低的主要贡献者,而扩散模型能够提供补充改进,稳定和丰富策略决策。

🎯 应用场景

该研究成果可应用于各种需要实时信息更新的无线通信系统,例如工业物联网、智能交通系统、无线传感器网络等。通过降低信息陈旧度和控制极端情况下的信息延迟,可以提高系统的可靠性、稳定性和安全性,从而提升用户体验和系统性能。

📄 摘要(原文)

Ensuring timely and semantically accurate information delivery is critical in real-time wireless systems. While Age of Information (AoI) quantifies temporal freshness, Version Age of Information (VAoI) captures semantic staleness by accounting for version evolution between transmitters and receivers. Existing VAoI scheduling approaches primarily focus on minimizing average VAoI, overlooking rare but severe staleness events that can compromise reliability under stochastic packet arrivals and unreliable channels. This paper investigates both average-oriented and tail-risk-sensitive VAoI scheduling in a multi-user status update system with long-term transmission cost constraints. We first formulate the average VAoI minimization problem as a constrained Markov decision process and introduce a deep diffusion-based Soft Actor-Critic (D2SAC) algorithm. By generating actions through a diffusion-based denoising process, D2SAC enhances policy expressiveness and establishes a strong baseline for mean performance. Building on this foundation, we put forth RS-D3SAC, a risk-sensitive deep distributional diffusion-based Soft Actor-Critic algorithm. RS-D3SAC integrates a diffusion-based actor with a quantile-based distributional critic, explicitly modeling the full VAoI return distribution. This enables principled tail-risk optimization via Conditional Value-at-Risk (CVaR) while satisfying long-term transmission cost constraints. Extensive simulations show that, while D2SAC reduces average VAoI, RS-D3SAC consistently achieves substantial reductions in CVaR without sacrificing mean performance. The dominant gain in tail-risk reduction stems from the distributional critic, with the diffusion-based actor providing complementary refinement to stabilize and enrich policy decisions, highlighting their effectiveness for robust and risk-aware VAoI scheduling in multi-user wireless systems.