Learning Multi-Agent Local Collision-Avoidance for Collaborative Carrying tasks with Coupled Quadrupedal Robots

📄 arXiv: 2603.23278v1 📥 PDF

作者: Francesca Bray, Simone Tolomei, Andrei Cramariuc, Cesar Cadena, Marco Hutter

分类: cs.RO

发布日期: 2026-03-24


💡 一句话要点

提出基于强化学习的多智能体局部避障策略,用于耦合四足机器人的协同搬运任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体系统 协同搬运 四足机器人 强化学习 局部避障 课程学习 机器人控制

📋 核心要点

  1. 现有协同搬运研究主要集中在无障碍环境中,或依赖预先录制的地图和路径规划,难以适应真实场景。
  2. 提出一种基于强化学习的分层策略,利用板载传感器实现局部避障,无需预先计算轨迹或完整地图信息。
  3. 硬件实验表明,该系统能够在未知环境中运动,并优于基于优化的基线方法和分散式强化学习基线方法。

📝 摘要(中文)

本研究针对多机器人协同搬运问题,提出了一种基于强化学习(RL)的策略,用于控制两个机械连接的四足机器人。该策略仅使用板载传感器,无需预先计算的轨迹和完整的地图信息,即可在跟踪指令速度方向的同时避开障碍物。论文采用分层架构,其中以物体为中心的高级感知策略指挥两个预训练的运动策略。此外,采用游戏灵感的课程学习方法,逐步增加地形中障碍物的复杂性。通过硬件实验,验证了该方法在未知环境中运动的能力,并与基于优化的基线方法和分散式强化学习基线方法进行了比较。

🔬 方法详解

问题定义:论文旨在解决耦合四足机器人在协同搬运任务中,如何在未知环境中仅利用板载传感器实现局部避障的问题。现有方法要么依赖于预先构建的地图和全局路径规划,要么在特定地形配置下过拟合,缺乏泛化能力和实时性。

核心思路:论文的核心思路是利用强化学习训练一个局部避障策略,该策略直接从板载传感器数据学习如何控制机器人的运动,以跟踪期望的速度方向并避开障碍物。通过分层控制结构和课程学习,提高策略的鲁棒性和泛化能力。

技术框架:该方法采用分层架构。顶层是一个以物体为中心的高级策略,负责感知环境并生成速度指令。底层是两个预训练的四足机器人运动策略,负责根据顶层的速度指令控制机器人的具体运动。整体流程是:传感器数据输入 -> 高级策略生成速度指令 -> 运动策略控制机器人运动 -> 环境反馈 -> 强化学习更新高级策略。

关键创新:该方法最重要的创新点在于,它将强化学习应用于耦合四足机器人的协同搬运任务,并实现了仅使用板载传感器进行局部避障。与传统的基于地图和路径规划的方法相比,该方法具有更强的鲁棒性和适应性,能够应对未知环境中的挑战。

关键设计:论文采用了一种游戏灵感的课程学习方法,逐步增加训练环境中障碍物的复杂性,以提高策略的泛化能力。此外,论文还设计了一个以物体为中心的奖励函数,鼓励机器人跟踪期望的速度方向并避开障碍物。具体的网络结构和参数设置在论文中有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

硬件实验表明,该系统能够在未知环境中运动,无需地图或路径规划。与基于优化的基线方法和分散式强化学习基线方法相比,该方法在避障能力和运动效率方面均有显著提升。具体的性能数据和提升幅度在论文正文中给出,摘要中未提及。

🎯 应用场景

该研究成果可应用于仓库管理、建筑工地等需要多机器人协同搬运的场景。该方法无需预先构建地图,能够适应动态变化的未知环境,具有很高的实用价值。未来可进一步扩展到更多类型的机器人和更复杂的搬运任务,例如在灾难救援、物流运输等领域发挥作用。

📄 摘要(原文)

Robotic collaborative carrying could greatly benefit human activities like warehouse and construction site management. However, coordinating the simultaneous motion of multiple robots represents a significant challenge. Existing works primarily focus on obstacle-free environments, making them unsuitable for most real-world applications. Works that account for obstacles, either overfit to a specific terrain configuration or rely on pre-recorded maps combined with path planners to compute collision-free trajectories. This work focuses on two quadrupedal robots mechanically connected to a carried object. We propose a Reinforcement Learning (RL)-based policy that enables tracking a commanded velocity direction while avoiding collisions with nearby obstacles using only onboard sensing, eliminating the need for precomputed trajectories and complete map knowledge. Our work presents a hierarchical architecture, where a perceptive high-level object-centric policy commands two pretrained locomotion policies. Additionally, we employ a game-inspired curriculum to increase the complexity of obstacles in the terrain progressively. We validate our approach on two quadrupedal robots connected to a bar via spherical joints, benchmarking it against optimization-based and decentralized RL baselines. Our hardware experiments demonstrate the ability of our system to locomote in unknown environments without the need for a map or a path planner. The video of our work is available in the multimedia material.