Adversarial Training for Robust Coverage Network under Worst-case Facility Losses

📄 arXiv: 2605.26763v1 📥 PDF

作者: Changhao Miao, Yuntian Zhang, Tongyu Wu, Fang Deng, Chen Chen

分类: cs.LG, cs.AI

发布日期: 2026-05-26


💡 一句话要点

提出双代理深度强化学习框架以解决最大覆盖位置干扰问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 双层优化 对抗学习 深度强化学习 设施规划 韧性基础设施 动态决策 干扰策略

📋 核心要点

  1. 核心问题:最大覆盖位置干扰问题的双层结构导致传统方法在计算上难以有效解决,尤其是在高组合复杂性下。
  2. 方法要点:提出双代理深度强化学习框架,通过对抗学习实现上层和下层代理的动态互动,从而提升决策能力。
  3. 实验或效果:在合成和真实数据集上的实验表明,该方法在计算效率和解的质量上均优于现有基线。

📝 摘要(中文)

最大覆盖位置干扰问题(MCLIP)是一种经典的双层优化问题,关键于韧性基础设施规划,但计算上难以处理。本文提出了一种基于对抗学习的双代理深度强化学习(DADRL)框架,分别对应上层的设施位置代理和下层的干扰代理。该框架通过动态竞争互动训练位置代理,并利用干扰代理作为高保真替代品指导位置代理决策。实验结果表明,该方法在计算效率和解的质量上优于其他基线,且具有广泛的适用性。

🔬 方法详解

问题定义:本文聚焦于最大覆盖位置干扰问题(MCLIP),该问题涉及上层设施位置的选择以最大化覆盖,而下层则通过干扰最小化覆盖。现有方法因双层结构的强耦合性和高组合复杂性而难以有效求解。

核心思路:本研究提出双代理深度强化学习框架(DADRL),通过对抗学习训练位置代理与干扰代理,使其在动态竞争环境中相互作用,从而提升决策效果。

技术框架:DADRL框架包括两个主要模块:位置代理和干扰代理。位置代理负责选择设施位置,而干扰代理则通过模拟干扰行为来影响位置代理的决策。两者通过对抗学习进行联合训练,形成一个闭环反馈机制。

关键创新:本研究的创新点在于引入了对抗学习机制,使得位置代理能够在动态环境中适应干扰代理的策略,从而有效捕捉双层优化问题中的竞争关系。这一方法与传统的单一优化方法有本质区别。

关键设计:在模型设计中,采用了基于替代的集成推理策略,利用训练好的干扰代理作为高保真替代品来指导位置代理的决策。此外,损失函数的设计考虑了双层优化的特性,以确保训练过程中的有效性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,DADRL框架在合成和真实数据集上均表现出色,相较于其他基线方法,计算效率提升显著,解的质量保持竞争力,验证了该方法的有效性和广泛适用性。

🎯 应用场景

该研究的潜在应用领域包括城市基础设施规划、应急响应系统和资源分配等。通过优化设施位置和干扰策略,可以提高基础设施的韧性和效率,具有重要的实际价值和社会影响。

📄 摘要(原文)

The Maximal Covering Location-Interdiction Problem (MCLIP) is a classic bi-level optimization problem, which is fundamental to resilient infrastructure planning yet remains computationally intractable. Specifically, the upper level determines facility locations to maximize coverage, while the lower level executes worst-case interdiction to minimize the coverage. The strong coupling between the upper and lower levels, combined with their respective high combinatorial complexity, renders traditional methods ineffective. To bridge this gap, we propose a Dual-Agent Deep Reinforcement Learning (DADRL) framework based on adversarial learning, comprising a location agent corresponding to the upper level and an interdiction agent corresponding to the lower level. Our contributions are threefold: (1) The location agent is trained simultaneously against an evolving interdiction agent, making it effectively capture the dynamic competitive interplay between the upper and lower levels; (2) To fully exploit the learned capabilities of the interdiction agent, we propose a Surrogate-based Ensemble Inference Strategy that utilizes the trained interdiction agent as a high-fidelity surrogate to guide the decisions of location agent; (3) Extensive experiments on synthetic and real-world datasets demonstrate that our approach achieves superior computational efficiency while maintaining highly competitive solution quality compared to other baselines. Furthermore, our DADRL framework is model-agnostic to network structures, while its underlying adversarial learning paradigm demonstrates strong potential for solving other bi-level optimization problems.