Distributionally Robust Multi-Agent Reinforcement Learning for Dynamic Chute Mapping

📄 arXiv: 2503.09755v1 📥 PDF

作者: Guangyi Liu, Suzan Iloglu, Michael Caldara, Joseph W. Durham, Michael M. Zavlanos

分类: cs.LG, cs.RO

发布日期: 2025-03-12


💡 一句话要点

提出DRMARL框架,解决亚马逊仓库动态分拣中对不确定诱导率的鲁棒映射问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 分布鲁棒优化 多智能体强化学习 动态滑槽映射 上下文Bandit 机器人仓库

📋 核心要点

  1. 亚马逊仓库中包裹诱导率的不确定性和动态性,给目的地到滑槽的映射带来挑战,导致包裹再循环。
  2. 提出DRMARL框架,利用群组分布鲁棒优化学习对诱导率变化具有鲁棒性的策略,并结合上下文bandit预测最坏情况分布。
  3. 仿真结果表明,DRMARL在不同诱导分布下实现了鲁棒的滑槽映射,平均减少了80%的包裹再循环。

📝 摘要(中文)

本文提出了一种分布鲁棒多智能体强化学习(DRMARL)框架,用于解决亚马逊机器人仓库中目的地到滑槽的映射问题,该问题因不确定和动态的包裹诱导率而变得复杂,导致包裹再循环增加。DRMARL依赖于群组分布鲁棒优化(DRO),学习一种不仅在平均水平上表现良好,而且在群组内每个诱导率子群体上也能表现良好的策略,这些子群体捕捉了系统的不同季节性或运行模式。该方法结合了一种新颖的基于上下文bandit的最坏情况诱导分布预测器,显著降低了探索成本,从而提高了框架的学习效率和可扩展性。大量仿真表明,DRMARL在存在变化的诱导分布的情况下实现了鲁棒的滑槽映射,在仿真场景中平均减少了80%的包裹再循环。

🔬 方法详解

问题定义:论文旨在解决亚马逊仓库中,由于包裹诱导率的动态变化和不确定性,导致的目的地到滑槽映射问题。现有方法难以适应这种变化,导致包裹再循环率升高,影响分拣效率。传统方法通常基于平均诱导率进行优化,无法应对极端情况或不同操作模式下的诱导率变化。

核心思路:论文的核心思路是利用分布鲁棒优化(DRO)来学习一种对诱导率变化具有鲁棒性的映射策略。通过考虑诱导率分布的不确定性集合,DRMARL旨在优化最坏情况下的性能,从而保证在各种诱导率条件下都能获得较好的分拣效果。此外,利用上下文bandit算法预测最坏情况的诱导分布,加速学习过程。

技术框架:DRMARL框架主要包含两个核心模块:基于群组DRO的策略学习模块和基于上下文bandit的最坏情况诱导分布预测模块。策略学习模块利用多智能体强化学习,每个智能体负责一个滑槽的映射策略。DRO目标函数鼓励策略在诱导率分布的不确定性集合上表现良好。最坏情况诱导分布预测模块则利用上下文信息(如当前状态和动作)来预测可能导致最差性能的诱导率分布,从而指导策略学习。

关键创新:论文的关键创新在于将群组分布鲁棒优化与上下文bandit算法相结合,用于解决动态滑槽映射问题。传统的DRO方法通常需要预先定义不确定性集合,而本文通过上下文bandit算法动态地学习最坏情况的诱导分布,从而更有效地探索状态空间,并提高学习效率。此外,将DRO应用于多智能体强化学习,使得每个智能体都能学习到对全局诱导率变化具有鲁棒性的策略。

关键设计:DRMARL使用多智能体架构,每个滑槽对应一个智能体。策略学习采用Q-learning算法,目标函数为群组DRO目标,旨在最小化最坏情况下的累积折扣奖励。上下文bandit算法使用线性模型预测最坏情况诱导分布,并采用UCB(Upper Confidence Bound)策略进行探索。损失函数结合了Q-learning损失和DRO损失,通过调整权重平衡平均性能和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DRMARL在存在变化的诱导分布的情况下,能够显著减少包裹再循环。在仿真场景中,DRMARL平均减少了80%的包裹再循环,优于传统的基于平均诱导率的映射策略和其他基线方法。此外,上下文bandit算法的使用显著提高了学习效率,使得DRMARL能够更快地适应新的诱导分布。

🎯 应用场景

该研究成果可应用于各种自动化仓储和物流系统,特别是那些面临需求波动和不确定性的场景。通过学习鲁棒的映射策略,可以提高分拣效率,减少包裹再循环,降低运营成本。此外,该方法还可以推广到其他资源分配和调度问题,例如云计算资源管理和交通流量控制。

📄 摘要(原文)

In Amazon robotic warehouses, the destination-to-chute mapping problem is crucial for efficient package sorting. Often, however, this problem is complicated by uncertain and dynamic package induction rates, which can lead to increased package recirculation. To tackle this challenge, we introduce a Distributionally Robust Multi-Agent Reinforcement Learning (DRMARL) framework that learns a destination-to-chute mapping policy that is resilient to adversarial variations in induction rates. Specifically, DRMARL relies on group distributionally robust optimization (DRO) to learn a policy that performs well not only on average but also on each individual subpopulation of induction rates within the group that capture, for example, different seasonality or operation modes of the system. This approach is then combined with a novel contextual bandit-based predictor of the worst-case induction distribution for each state-action pair, significantly reducing the cost of exploration and thereby increasing the learning efficiency and scalability of our framework. Extensive simulations demonstrate that DRMARL achieves robust chute mapping in the presence of varying induction distributions, reducing package recirculation by an average of 80\% in the simulation scenario.