Distributed Detection of Adversarial Attacks in Multi-Agent Reinforcement Learning with Continuous Action Space

作者: Kiarash Kazari, Ezzeldin Shereen, György Dán

分类: cs.LG, cs.MA

发布日期: 2025-08-21

备注: Accepted for publication at ECAI 2025

期刊: Proceedings of the European Conference on Artificial Intelligence (ECAI 2025)

DOI: 10.3233/FAIA251233

💡 一句话要点

提出一种基于局部观测的分布式检测器，用于检测连续动作空间多智能体强化学习中的对抗攻击。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 对抗攻击检测 去中心化检测器 连续动作空间 异常检测

📋 核心要点

现有方法难以有效检测连续动作空间多智能体强化学习中的对抗攻击，尤其是在智能体只能获取局部观测的情况下。
该论文提出一种去中心化的检测器，通过学习智能体正常行为的统计特征，并利用正态性得分的偏差来检测攻击。
实验结果表明，该方法在多个PettingZoo基准测试中，针对多种攻击方法，均取得了优异的检测性能，AUC-ROC分数超过0.95。

📝 摘要（中文）

本文研究了针对具有连续动作空间的合作多智能体强化学习中的对抗攻击检测问题。我们提出了一种去中心化的检测器，该检测器仅依赖于智能体的局部观测，并利用可观测智能体正常行为的统计特征。所提出的检测器利用深度神经网络将智能体的正常行为近似为参数化的多元高斯分布。基于预测的密度函数，我们定义了一个正态性得分，并提供了其均值和方差的特征。这种特征使我们能够采用双边CUSUM程序来检测正态性得分与其均值的偏差，从而实时检测异常行为。我们在各种多智能体PettingZoo基准上，针对不同的最先进的攻击方法评估了我们的方案，结果表明我们的方法在检测有影响的对抗攻击方面的有效性。特别地，它优于离散对应方法，在所有评估环境中，针对最具影响力的攻击实现了超过0.95的AUC-ROC分数。

🔬 方法详解

问题定义：针对合作多智能体强化学习系统，当攻击者通过恶意操纵部分智能体的行为来干扰整个系统的性能时，如何有效地检测这种对抗攻击？现有方法通常依赖于全局信息或假设离散动作空间，这在实际应用中可能不成立，且难以扩展到大规模多智能体系统。

核心思路：核心思想是利用智能体的局部观测来学习其正常行为的统计特征，并基于这些特征构建一个去中心化的异常检测器。通过监测智能体行为与正常行为之间的偏差，可以实时检测出潜在的对抗攻击。这种方法避免了对全局信息的依赖，更具可扩展性和鲁棒性。

技术框架：整体框架包含以下几个主要模块：1) 局部观测模块：每个智能体仅能获取其自身的局部观测信息。2) 行为建模模块：利用深度神经网络学习智能体正常行为的统计特征，具体而言，将智能体的正常行为建模为参数化的多元高斯分布，神经网络输出高斯分布的均值和方差。3) 正态性得分计算模块：基于预测的多元高斯分布，计算每个智能体的正态性得分，该得分反映了当前行为与正常行为的偏差程度。4) 异常检测模块：采用双边CUSUM程序来检测正态性得分与其均值的偏差，当偏差超过预设阈值时，则判定为存在对抗攻击。

关键创新：最重要的技术创新点在于提出了一种基于局部观测和统计特征的去中心化异常检测方法，该方法能够有效地检测连续动作空间多智能体强化学习系统中的对抗攻击。与现有方法相比，该方法不需要全局信息，更具可扩展性和鲁棒性，并且适用于连续动作空间。

关键设计：关键设计包括：1) 使用深度神经网络来近似智能体的正常行为，网络结构的选择需要根据具体任务进行调整。2) 定义正态性得分，用于量化智能体行为与正常行为之间的偏差，可以使用高斯分布的概率密度函数或马氏距离等指标。3) 采用双边CUSUM程序来检测正态性得分的偏差，需要设置合适的阈值和惩罚参数，以平衡检测的灵敏度和误报率。损失函数通常包括重构损失和正则化项，以提高模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在多个PettingZoo基准测试中，针对多种最先进的攻击方法，均取得了优异的检测性能。特别地，针对最具影响力的攻击，该方法实现了超过0.95的AUC-ROC分数，显著优于离散对应方法，证明了其在检测连续动作空间多智能体强化学习系统中的对抗攻击方面的有效性。

🎯 应用场景

该研究成果可应用于各种多智能体系统，例如自动驾驶、机器人协作、网络安全等领域。通过实时检测对抗攻击，可以提高系统的安全性和可靠性，防止恶意行为对系统造成损害。未来，该方法可以进一步扩展到更复杂的场景，例如非合作多智能体系统、动态环境等。

📄 摘要（原文）

We address the problem of detecting adversarial attacks against cooperative multi-agent reinforcement learning with continuous action space. We propose a decentralized detector that relies solely on the local observations of the agents and makes use of a statistical characterization of the normal behavior of observable agents. The proposed detector utilizes deep neural networks to approximate the normal behavior of agents as parametric multivariate Gaussian distributions. Based on the predicted density functions, we define a normality score and provide a characterization of its mean and variance. This characterization allows us to employ a two-sided CUSUM procedure for detecting deviations of the normality score from its mean, serving as a detector of anomalous behavior in real-time. We evaluate our scheme on various multi-agent PettingZoo benchmarks against different state-of-the-art attack methods, and our results demonstrate the effectiveness of our method in detecting impactful adversarial attacks. Particularly, it outperforms the discrete counterpart by achieving AUC-ROC scores of over 0.95 against the most impactful attacks in all evaluated environments.

Distributed Detection of Adversarial Attacks in Multi-Agent Reinforcement Learning with Continuous Action Space

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理