DeReCo: Decoupling Representation and Coordination Learning for Object-Adaptive Decentralized Multi-Robot Cooperative Transport
作者: Kazuki Shibata, Ryosuke Sota, Shandil Dhiresh Bosch, Yuki Kadokawa, Tsurumine Yoshihisa, Takamitsu Matsubara
分类: cs.RO
发布日期: 2026-03-09
备注: 9 pages, 7 figures
💡 一句话要点
DeReCo:解耦表征与协同学习,实现对象自适应的多机器人协同搬运
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多机器人协同 强化学习 表征学习 解耦学习 分散式控制
📋 核心要点
- 现有方法在多机器人协同搬运中,将表征学习和协同学习紧耦合,导致训练效率低,泛化能力差。
- DeReCo通过解耦表征学习和协同学习,采用三阶段训练策略,缓解了二者之间的干扰,提升了训练效率。
- 实验表明,DeReCo在模拟和真实机器人环境中均优于基线方法,并能泛化到未见过的对象。
📝 摘要(中文)
在分散式多机器人协同搬运中,如何针对不同形状和物理属性的对象进行泛化是一个根本性挑战。分散式执行面临两个关键挑战:部分可观测下的对象相关表征学习,以及非平稳环境下的多智能体强化学习(MARL)协同学习。传统方法通常以端到端的方式联合优化对象相关表征和协同策略,并在训练期间随机化对象形状和物理属性。然而,这种联合优化紧密耦合了表征和协同学习,引入了双向干扰:不准确的表征会破坏协同学习的稳定性,而MARL中的非平稳性会进一步降低表征学习的效果,导致训练效率低下。为了解决这种结构性耦合,我们提出了DeReCo,一种新颖的MARL框架,它解耦了表征和协同学习,用于对象自适应的多机器人协同搬运,从而提高了样本效率和在不同对象和搬运场景中的泛化能力。DeReCo采用三阶段训练策略:(1)利用特权对象信息进行集中式协同学习,(2)从局部观测中重建对象相关表征,(3)逐步移除特权信息以实现分散式执行。这种解耦减轻了表征和协同学习之间的干扰,并实现了稳定和高效的训练。实验结果表明,DeReCo在模拟环境中优于基线方法,能够泛化到六个具有不同质量和摩擦系数的未见对象,并在真实机器人实验中对两个未见对象实现了卓越的性能。
🔬 方法详解
问题定义:论文旨在解决分散式多机器人协同搬运任务中,针对不同形状和物理属性的对象进行泛化的问题。现有方法通常采用端到端的方式联合优化对象相关表征和协同策略,但这种联合优化存在双向干扰,导致训练效率低下,难以泛化到未见过的对象。
核心思路:论文的核心思路是将对象表征学习和多智能体协同学习解耦。通过解耦,可以避免不准确的表征影响协同策略的学习,同时也能避免多智能体环境的非平稳性对表征学习的干扰。这种解耦使得两个模块可以独立地进行优化,从而提高训练效率和泛化能力。
技术框架:DeReCo采用三阶段训练策略: 1. 集中式协同学习:利用特权对象信息(例如,对象的完整形状和物理属性)进行集中式协同学习,训练出一个鲁棒的协同策略。 2. 表征重建:从每个机器人的局部观测中重建对象相关的表征。这个阶段的目标是学习一个能够从局部观测中提取对象关键信息的表征。 3. 逐步去中心化:逐步移除特权信息,并使用学习到的表征进行分散式执行。这个阶段的目标是使机器人能够在没有全局信息的情况下,仅依靠局部观测和学习到的表征进行协同搬运。
关键创新:DeReCo最关键的创新点在于解耦了表征学习和协同学习。这种解耦与现有端到端方法有着本质区别,它允许两个模块独立优化,从而避免了相互干扰,提高了训练效率和泛化能力。此外,三阶段训练策略也为解耦提供了有效的实现方式。
关键设计:在集中式协同学习阶段,可以使用各种多智能体强化学习算法,例如MADDPG或TD3。在表征重建阶段,可以使用自编码器或变分自编码器等模型,目标是最小化重建误差。在逐步去中心化阶段,可以逐渐减小特权信息的比例,并使用对抗训练等技术来提高模型的鲁棒性。具体的损失函数和网络结构需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DeReCo在模拟环境中优于基线方法,例如在三个训练对象上取得了显著的性能提升。更重要的是,DeReCo能够泛化到六个具有不同质量和摩擦系数的未见对象,表明其具有良好的泛化能力。此外,真实机器人实验也验证了DeReCo的有效性,在两个未见对象上实现了卓越的性能,证明了其在实际应用中的潜力。
🎯 应用场景
DeReCo具有广泛的应用前景,例如在仓库自动化、建筑施工、灾害救援等领域,可以用于实现多个机器人协同搬运各种形状和重量的物体。该研究的实际价值在于提高了多机器人协同搬运系统的鲁棒性和泛化能力,使其能够适应更加复杂和动态的环境。未来,可以将DeReCo应用于更多类型的多机器人协同任务中,例如协同装配、协同探索等。
📄 摘要(原文)
Generalizing decentralized multi-robot cooperative transport across objects with diverse shapes and physical properties remains a fundamental challenge. Under decentralized execution, two key challenges arise: object-dependent representation learning under partial observability and coordination learning in multi-agent reinforcement learning (MARL) under non-stationarity. A typical approach jointly optimizes object-dependent representations and coordinated policies in an end-to-end manner while randomizing object shapes and physical properties during training. However, this joint optimization tightly couples representation and coordination learning, introducing bidirectional interference: inaccurate representations under partial observability destabilize coordination learning, while non-stationarity in MARL further degrades representation learning, resulting in sample-inefficient training. To address this structural coupling, we propose DeReCo, a novel MARL framework that decouples representation and coordination learning for object-adaptive multi-robot cooperative transport, improving sample efficiency and generalization across objects and transport scenarios. DeReCo adopts a three-stage training strategy: (1) centralized coordination learning with privileged object information, (2) reconstruction of object-dependent representations from local observations, and (3) progressive removal of privileged information for decentralized execution. This decoupling mitigates interference between representation and coordination learning and enables stable and sample-efficient training. Experimental results show that DeReCo outperforms baselines in simulation on three training objects, generalizes to six unseen objects with varying masses and friction coefficients, and achieves superior performance on two unseen objects in real-robot experiments.