COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints
作者: Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy
分类: cs.RO, cs.DC
发布日期: 2026-03-11
备注: Recently accepted at 27th IEEE International Symposium on a World of Wireless, Mobile and Multimedia Networks ( IEEE WoWMoM 2026)
💡 一句话要点
COHORT:混合强化学习解决多机器人系统实时约束下协同DNN推理问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多机器人系统 协同推理 深度神经网络 强化学习 实时约束
📋 核心要点
- 现有方法难以在资源受限的多机器人系统上高效部署大型DNN,尤其是在实时性要求高的任务中。
- COHORT采用混合强化学习策略,离线学习通用策略,在线实时微调,动态调度DNN模块在机器人上的执行。
- 实验表明,COHORT在降低电池消耗和提高GPU利用率的同时,显著提升了满足实时约束的次数。
📝 摘要(中文)
大型深度神经网络(DNN),特别是基于Transformer和多模态架构的网络,计算需求高,难以部署在资源受限的边缘平台(如现场机器人)上。在任务关键型场景(如灾难响应)中,这种挑战更加严峻,机器人必须在带宽、延迟和电池寿命的严格约束下进行协作,通常没有基础设施或服务器支持。为了解决这些限制,我们提出了COHORT,一个基于机器人操作系统(ROS)的多机器人系统协同DNN推理和任务执行框架。COHORT采用混合离线-在线强化学习(RL)策略,动态调度和分配DNN模块在机器人上的执行。我们的主要贡献有三方面:(a)离线RL策略学习与优势加权回归(AWR)相结合,在分布式机器人上对来自异构DNN工作负载的基于拍卖的任务分配数据进行训练;(b)通过多智能体PPO(MAPPO)进行在线策略适应,从离线策略初始化并在实时中进行微调;(c)在视觉-语言模型(VLM)推理任务(如CLIP和SAM)上对COHORT进行全面评估,分析随着机器人/工作负载增加的可扩展性以及在...下的鲁棒性。我们将COHORT与遗传算法和多个RL基线进行基准测试。实验结果表明,COHORT降低了15.4%的电池消耗,提高了51.67%的GPU利用率,同时满足帧率和截止时间约束的次数是原来的2.55倍。
🔬 方法详解
问题定义:论文旨在解决多机器人系统在资源受限和实时性约束下,如何高效协同完成大型DNN推理任务的问题。现有方法通常难以在带宽、延迟和电池寿命的限制下,实现最优的任务分配和调度,导致性能下降或无法满足实时性要求。
核心思路:论文的核心思路是利用混合强化学习策略,将离线学习的通用策略与在线实时微调相结合。离线学习阶段,通过优势加权回归(AWR)从大量的任务分配数据中学习到一个初步的策略,该策略能够根据机器人的资源状况和任务需求进行初步的任务分配。在线微调阶段,利用多智能体PPO(MAPPO)算法,根据实际运行环境中的反馈,对策略进行实时调整,以适应动态变化的环境和任务需求。
技术框架:COHORT框架主要包含以下几个模块:1) 离线策略学习模块:使用AWR算法,基于拍卖机制生成的任务分配数据,训练一个初步的策略。2) 在线策略适应模块:使用MAPPO算法,根据实际运行环境中的奖励信号,对离线策略进行微调。3) 任务调度模块:根据当前策略,将DNN模块分配给不同的机器人执行。4) 通信模块:负责机器人之间的通信,包括任务分配信息、中间结果等。
关键创新:COHORT的关键创新在于混合强化学习策略。离线学习能够快速获得一个较好的初始策略,而在线微调能够使策略适应动态变化的环境。这种混合策略能够充分利用离线数据和在线反馈,从而实现更高效的任务分配和调度。此外,使用AWR和MAPPO算法也是一个创新点,AWR能够有效地利用离线数据,而MAPPO能够处理多智能体环境下的策略学习问题。
关键设计:在离线学习阶段,使用优势加权回归(AWR)算法,其损失函数旨在最大化策略的优势函数,从而学习到一个能够做出较好决策的策略。在线微调阶段,使用多智能体PPO(MAPPO)算法,其奖励函数设计旨在鼓励机器人完成任务,同时惩罚违反实时性约束的行为。MAPPO算法使用中心化的critic,以提高学习效率。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,COHORT相比于遗传算法和多个强化学习基线,在降低电池消耗和提高GPU利用率方面表现更优。具体来说,COHORT降低了15.4%的电池消耗,提高了51.67%的GPU利用率,同时满足帧率和截止时间约束的次数是原来的2.55倍。这些结果验证了COHORT的有效性和优越性。
🎯 应用场景
COHORT适用于需要在资源受限和实时性约束下进行协同计算的多机器人系统,例如灾难救援、环境监测、智能制造等领域。该研究成果可以提高机器人的自主性和协作能力,使其能够在复杂环境中完成更具挑战性的任务,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
Large deep neural networks (DNNs), especially transformer-based and multimodal architectures, are computationally demanding and challenging to deploy on resource-constrained edge platforms like field robots. These challenges intensify in mission-critical scenarios (e.g., disaster response), where robots must collaborate under tight constraints on bandwidth, latency, and battery life, often without infrastructure or server support. To address these limitations, we present COHORT, a collaborative DNN inference and task-execution framework for multi-robot systems built on the Robotic Operating System (ROS). COHORT employs a hybrid offline-online reinforcement learning (RL) strategy to dynamically schedule and distribute DNN module execution across robots. Our key contributions are threefold: (a) Offline RL policy learning combined with Advantage-Weighted Regression (AWR), trained on auction-based task allocation data from heterogeneous DNN workloads across distributed robots, (b) Online policy adaptation via Multi-Agent PPO (MAPPO), initialized from the offline policy and fine-tuned in real time, and (c) comprehensive evaluation of COHORT on vision-language model (VLM) inference tasks such as CLIP and SAM, analyzing scalability with increasing robot/workload and robustness under . We benchmark COHORT against genetic algorithms and multiple RL baselines. Experimental results demonstrate that COHORT reduces battery consumption by 15.4% and increases GPU utilization by 51.67%, while satisfying frame-rate and deadline constraints 2.55 times of the time.