Dynamic Treatment on Networks

📄 arXiv: 2605.06564v1 📥 PDF

作者: Bengusu Nar, Jiguang Li, Veronika Ročková, Panos Toulis

分类: stat.ML, cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出Q-Ising框架,解决网络中动态干预策略的优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 网络干预 动态策略 强化学习 贝叶斯模型 Ising模型 溢出效应 离线学习

📋 核心要点

  1. 现有网络干预策略静态,忽略了干预的动态性和溢出效应,动态干预框架又忽略了网络结构。
  2. Q-Ising框架结合贝叶斯动态Ising模型估计网络动态,并用后验潜在状态增强干预历史,最后通过离线强化学习学习动态策略。
  3. 实验表明,Q-Ising在印度小额信贷网络和合成SIS动态网络中,优于静态中心性基准方法。

📝 摘要(中文)

在网络中,有效的动态干预分配需要决定干预对象和干预时间,从而通过溢出效应扩大策略影响。对连接良好的节点进行早期干预可以触发级联效应,从而改变下一个时期值得干预的节点。现有的网络干预策略大多是静态的,而动态干预框架通常完全忽略网络结构。本文整合了这些观点,提出了Q-Ising,这是一个三阶段流程,它(i)通过贝叶斯动态Ising模型,从单个观察到的面板数据中估计网络采用动态;(ii)使用连续后验潜在状态增强干预采用历史;(iii)通过离线强化学习学习动态策略。贝叶斯机制能够量化动态决策的不确定性,从而产生具有可解释溢出估计的后验集成策略。我们提供了一个有限样本遗憾上界,该上界分解为标准的离线强化学习不确定性、网络抽象误差和Ising状态估计的第一阶段误差。我们将该方法应用于印度乡村小额信贷网络的数据以及模拟异构易感-感染-易感(SIS)动态下的合成随机块模型,并证明自适应目标优于静态中心性基准。

🔬 方法详解

问题定义:论文旨在解决在网络中如何进行动态干预,以最大化干预效果的问题。现有方法要么是静态的,无法根据网络状态变化调整干预策略,要么忽略了网络结构,无法利用网络中的溢出效应。这些方法无法有效地选择干预对象和干预时间,导致干预效果不佳。

核心思路:论文的核心思路是结合网络结构和动态干预的思想,利用贝叶斯动态Ising模型来估计网络中的动态变化,并使用离线强化学习来学习最优的动态干预策略。通过这种方式,可以根据网络状态的变化自适应地调整干预策略,并利用网络中的溢出效应来扩大干预效果。

技术框架:Q-Ising框架包含三个主要阶段: 1. 网络动态估计:使用贝叶斯动态Ising模型从观察到的面板数据中估计网络采用动态。 2. 状态增强:使用连续后验潜在状态增强干预采用历史,提供更丰富的状态信息。 3. 动态策略学习:通过离线强化学习学习动态干预策略。

关键创新:Q-Ising的关键创新在于将贝叶斯动态Ising模型与离线强化学习相结合,从而能够有效地学习网络中的动态干预策略。贝叶斯方法能够量化不确定性,并产生具有可解释溢出估计的后验集成策略。此外,论文还提供了有限样本遗憾上界,用于分析算法的性能。

关键设计: * 贝叶斯动态Ising模型:用于估计网络中节点之间的相互影响,以及节点状态随时间的变化。 * 离线强化学习:用于学习最优的动态干预策略,目标是最大化长期累积奖励。 * 后验集成策略:通过集成多个后验策略,可以提高策略的鲁棒性和泛化能力。 * 遗憾上界分析:提供了算法性能的理论保证,并分解了误差来源。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在印度乡村小额信贷网络和合成SIS动态网络上的实验结果表明,Q-Ising框架优于静态中心性基准方法。具体来说,Q-Ising能够更有效地识别关键节点,并根据网络状态的变化自适应地调整干预策略,从而显著提高干预效果。实验结果验证了Q-Ising框架的有效性和优越性。

🎯 应用场景

Q-Ising框架可应用于多种网络干预场景,例如公共卫生干预(疫苗接种策略优化)、社交网络营销(精准广告投放)、金融风险控制(识别关键风险传播节点)等。该方法能够根据网络动态变化自适应地调整干预策略,从而提高干预效果,降低干预成本,具有重要的实际应用价值和广泛的应用前景。

📄 摘要(原文)

In networks, effective dynamic treatment allocation requires deciding both whom to treat and also when, so as to amplify policy impact through spillovers. An early intervention at a well-connected node can trigger cascades that change which nodes are worth targeting in the next period. Existing treatment strategies under network interference are largely static while dynamic treatment frameworks typically ignore network structure altogether. We integrate these perspectives and propose Q-Ising, a three-stage pipeline that (i) estimates network adoption dynamics via a Bayesian dynamic Ising model from a single observed panel, (ii) augments treatment adoption histories with continuous posterior latent states, and (iii) learns a dynamic policy via offline reinforcement learning. The Bayesian mechanism enables uncertainty quantification over dynamic decisions, yielding posterior ensemble policies with interpretable spillover estimates. We provide a finite-sample regret upper bound that decomposes into standard offline-RL uncertainty, network abstraction error, and first stage error in Ising state estimation. We apply our method to data from Indian village microfinance networks and synthetic stochastic block models under simulated heterogeneous susceptible-infected-susceptible (SIS) dynamics and demonstrate that adaptive targeting outperforms static centrality benchmarks.