Privacy Preserving Multi-Agent Reinforcement Learning in Supply Chains

📄 arXiv: 2312.05686v1 📥 PDF

作者: Ananta Mukherjee, Peeyush Kumar, Boling Yang, Nishanth Chandran, Divya Gupta

分类: cs.AI

发布日期: 2023-12-09


💡 一句话要点

提出基于安全多方计算的隐私保护多智能体强化学习方法,应用于供应链场景。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 隐私保护 安全多方计算 供应链管理 MADDPG SecFloat EzPC

📋 核心要点

  1. 现有MARL方法在供应链等敏感场景中,无法有效保护各参与方的私有状态和行动信息,存在数据泄露风险。
  2. 论文提出一种基于安全多方计算(MPC)的隐私保护MARL框架,通过SecFloat在EzPC上安全地执行MADDPG算法。
  3. 实验结果表明,该方法在保护隐私的同时,显著减少了供应链浪费,并提高了各参与者的平均累计收入。

📝 摘要(中文)

本文关注多智能体强化学习(MARL)中的隐私问题,特别是在供应链环境中,其中个体战略数据必须保密。供应链中的组织被建模为智能体,每个智能体寻求优化自身目标,同时与其他智能体交互。由于每个组织的策略都依赖于相邻策略,因此维护状态和行动相关信息的隐私至关重要。为了解决这一挑战,我们提出了一种博弈论的隐私保护机制,利用MARL设置中的安全多方计算(MPC)框架。我们的主要贡献是成功地在EzPC上实现了安全的MPC框架SecFloat来解决这个问题。然而,简单地使用SecFloat实现诸如MADDPG之类的策略梯度方法在概念上是可行的,但在编程上是难以处理的。为了克服这个障碍,我们设计了一种新颖的方法,将神经网络的前向和后向传递分解为与SecFloat兼容的基本操作,从而创建高效且安全的MADDPG算法版本。此外,我们提出了一种以隐私保护方式执行浮点运算的学习机制,这是MARL框架中成功学习的重要特征。实验表明,与不共享数据相比,在2PC中平均减少了68.19%的供应链浪费,同时每个参与者的平均累计收入提高了42.27%。这项工作为实用的、隐私保护的MARL铺平了道路,有望显著改善供应链环境以及更广泛领域的安全计算。

🔬 方法详解

问题定义:论文旨在解决供应链场景下,多智能体强化学习(MARL)中各参与方(如供应商、制造商、零售商)的隐私保护问题。现有MARL方法在训练和决策过程中需要共享状态和行动信息,这可能暴露各方的商业机密和战略信息,导致数据泄露风险。

核心思路:论文的核心思路是利用安全多方计算(MPC)技术,在不暴露各方私有数据的前提下,安全地执行MARL算法。具体而言,论文选择MADDPG作为基础MARL算法,并将其改造为可在MPC框架下运行的形式。

技术框架:整体框架包括以下几个主要模块:1)智能体建模:将供应链中的每个参与者建模为一个智能体,每个智能体都有自己的状态、行动和奖励函数。2)MADDPG算法:使用MADDPG算法进行多智能体学习,每个智能体学习自己的策略。3)安全多方计算(MPC):使用MPC技术,在不暴露各方私有数据的前提下,安全地执行MADDPG算法中的计算。4)SecFloat on EzPC:使用SecFloat作为MPC的具体实现,SecFloat是一种支持浮点运算的安全计算协议,EzPC是一个易于使用的MPC框架。

关键创新:论文的关键创新在于:1)提出了一种将MADDPG算法分解为与SecFloat兼容的基本操作的方法,使得MADDPG可以在MPC框架下安全高效地运行。2)实现了一种在隐私保护方式下执行浮点运算的学习机制,这对于MARL框架中的成功学习至关重要。

关键设计:论文的关键设计包括:1)将神经网络的前向和后向传递分解为加法、乘法等基本操作,这些操作可以在SecFloat上安全地执行。2)使用EzPC作为MPC框架,简化了MPC的开发和部署。3)针对供应链场景,设计了合适的奖励函数和状态空间,以模拟实际的供应链运作。

📊 实验亮点

实验结果表明,与不共享数据相比,该方法在2PC设置下平均减少了68.19%的供应链浪费,同时每个参与者的平均累计收入提高了42.27%。这表明该方法在保护隐私的同时,能够显著提高供应链的效率和效益。

🎯 应用场景

该研究成果可应用于各种需要隐私保护的多智能体决策场景,例如:供应链管理、金融交易、智能电网、医疗诊断等。通过在保护各方数据隐私的前提下进行协作学习,可以提高决策效率和整体系统性能,促进数据共享和合作。

📄 摘要(原文)

This paper addresses privacy concerns in multi-agent reinforcement learning (MARL), specifically within the context of supply chains where individual strategic data must remain confidential. Organizations within the supply chain are modeled as agents, each seeking to optimize their own objectives while interacting with others. As each organization's strategy is contingent on neighboring strategies, maintaining privacy of state and action-related information is crucial. To tackle this challenge, we propose a game-theoretic, privacy-preserving mechanism, utilizing a secure multi-party computation (MPC) framework in MARL settings. Our major contribution is the successful implementation of a secure MPC framework, SecFloat on EzPC, to solve this problem. However, simply implementing policy gradient methods such as MADDPG operations using SecFloat, while conceptually feasible, would be programmatically intractable. To overcome this hurdle, we devise a novel approach that breaks down the forward and backward pass of the neural network into elementary operations compatible with SecFloat , creating efficient and secure versions of the MADDPG algorithm. Furthermore, we present a learning mechanism that carries out floating point operations in a privacy-preserving manner, an important feature for successful learning in MARL framework. Experiments reveal that there is on average 68.19% less supply chain wastage in 2 PC compared to no data share, while also giving on average 42.27% better average cumulative revenue for each player. This work paves the way for practical, privacy-preserving MARL, promising significant improvements in secure computation within supply chain contexts and broadly.