Robust Communicative Multi-Agent Reinforcement Learning with Active Defense

📄 arXiv: 2312.11545v1 📥 PDF

作者: Lebin Yu, Yunbo Qiu, Quanming Yao, Yuan Shen, Xudong Zhang, Jian Wang

分类: cs.MA, cs.AI, cs.LG

发布日期: 2023-12-16

备注: Accepted by AAAI 2024


💡 一句话要点

提出ADMAC框架,通过主动防御提升多智能体通信在对抗攻击下的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 通信学习 鲁棒性 主动防御 对抗攻击

📋 核心要点

  1. 现有通信MARL方法在噪声和对抗攻击下鲁棒性不足,被动防御策略难以兼顾性能与鲁棒性。
  2. ADMAC框架通过主动评估消息可靠性并调整其影响,使智能体能够防御潜在的有害信息。
  3. 实验表明,在多种攻击场景下,ADMAC在通信关键任务中显著优于现有方法,提升了鲁棒性。

📝 摘要(中文)

多智能体强化学习(MARL)中的通信已被证明能有效促进智能体间的合作。然而,现实场景中的通信容易受到噪声和对抗攻击的影响,因此开发鲁棒的通信MARL技术至关重要。现有研究主要集中于被动防御策略,即智能体平等地接收所有消息,难以平衡性能和鲁棒性。本文提出一种主动防御策略,智能体自动降低潜在有害消息对最终决策的影响。为了实现这一策略,本文设计了一个主动防御多智能体通信框架(ADMAC),该框架估计接收消息的可靠性,并借助可分解的决策结构相应地调整它们对最终决策的影响。在四种类型的攻击下,三个通信关键任务中的实验验证了ADMAC相对于现有方法的优越性。

🔬 方法详解

问题定义:论文旨在解决多智能体强化学习中,通信过程易受噪声和对抗攻击影响,导致智能体协作性能下降的问题。现有方法主要采用被动防御策略,即平等对待所有接收到的消息,无法有效区分和过滤有害信息,难以在性能和鲁棒性之间取得平衡。

核心思路:论文的核心思路是引入主动防御机制,使智能体能够评估接收到的消息的可靠性,并根据可靠性调整消息对最终决策的影响。通过降低不可靠消息的权重,从而减轻其对智能体行为的负面影响,提高整体系统的鲁棒性。

技术框架:ADMAC框架包含以下主要模块:1) 消息编码模块:将智能体的观测信息编码为可通信的消息。2) 消息传递模块:智能体之间进行消息传递。3) 可靠性评估模块:评估接收到的消息的可靠性,输出一个置信度分数。4) 决策调整模块:根据消息的可靠性,调整消息对最终决策的影响。该模块利用可分解的决策结构,将每个智能体的决策分解为多个子决策,并根据消息的可靠性调整每个子决策的权重。5) 策略学习模块:使用强化学习算法训练智能体的策略,目标是最大化累积奖励。

关键创新:ADMAC的关键创新在于提出了主动防御策略,通过可靠性评估和决策调整,使智能体能够自适应地应对通信中的噪声和对抗攻击。与现有被动防御方法相比,ADMAC能够更有效地过滤有害信息,提高系统的鲁棒性。此外,ADMAC利用可分解的决策结构,使得消息可靠性评估能够更精细地影响智能体的决策过程。

关键设计:ADMAC中的可靠性评估模块可以使用多种方法实现,例如基于注意力机制的模型或基于距离度量的模型。决策调整模块的关键在于如何将消息的可靠性分数有效地融入到决策过程中。论文中使用了可分解的决策结构,将每个智能体的决策分解为多个子决策,并根据消息的可靠性调整每个子决策的权重。具体的损失函数设计需要根据具体的任务和攻击类型进行调整,目标是最小化有害信息对智能体决策的影响。

📊 实验亮点

实验结果表明,在四种不同类型的攻击下,ADMAC在三个通信关键任务中均优于现有的基线方法。例如,在某个任务中,ADMAC相对于表现最佳的基线方法,在攻击下的性能提升了10%以上,验证了其在对抗攻击下的鲁棒性。

🎯 应用场景

ADMAC框架可应用于各种需要多智能体协作且通信环境复杂的场景,例如:机器人协同、自动驾驶、智能交通、分布式传感器网络等。通过提高通信的鲁棒性,可以提升系统在复杂环境下的稳定性和可靠性,降低因通信干扰或攻击导致的性能下降或安全风险。

📄 摘要(原文)

Communication in multi-agent reinforcement learning (MARL) has been proven to effectively promote cooperation among agents recently. Since communication in real-world scenarios is vulnerable to noises and adversarial attacks, it is crucial to develop robust communicative MARL technique. However, existing research in this domain has predominantly focused on passive defense strategies, where agents receive all messages equally, making it hard to balance performance and robustness. We propose an active defense strategy, where agents automatically reduce the impact of potentially harmful messages on the final decision. There are two challenges to implement this strategy, that are defining unreliable messages and adjusting the unreliable messages' impact on the final decision properly. To address them, we design an Active Defense Multi-Agent Communication framework (ADMAC), which estimates the reliability of received messages and adjusts their impact on the final decision accordingly with the help of a decomposable decision structure. The superiority of ADMAC over existing methods is validated by experiments in three communication-critical tasks under four types of attacks.