Learning Multi-Agent Local Collision-Avoidance for Collaborative Carrying tasks with Coupled Quadrupedal Robots
作者: Francesca Bray, Simone Tolomei, Andrei Cramariuc, Cesar Cadena, Marco Hutter
分类: cs.RO
发布日期: 2026-03-24
💡 一句话要点
提出基于强化学习的多智能体局部避障策略,用于耦合四足机器人的协同搬运任务
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体系统 协同搬运 四足机器人 强化学习 局部避障 课程学习 机器人控制
📋 核心要点
- 现有协同搬运研究主要集中在无障碍环境中,或依赖预先录制的地图和路径规划,难以适应真实场景。
- 提出一种基于强化学习的分层策略,利用板载传感器实现局部避障,无需预先计算轨迹或完整地图信息。
- 硬件实验表明,该系统能够在未知环境中运动,并优于基于优化的基线方法和分散式强化学习基线方法。
📝 摘要(中文)
本研究针对多机器人协同搬运问题,提出了一种基于强化学习(RL)的策略,用于控制两个机械连接的四足机器人。该策略仅使用板载传感器,无需预先计算的轨迹和完整的地图信息,即可在跟踪指令速度方向的同时避开障碍物。论文采用分层架构,其中以物体为中心的高级感知策略指挥两个预训练的运动策略。此外,采用游戏灵感的课程学习方法,逐步增加地形中障碍物的复杂性。通过硬件实验,验证了该方法在未知环境中运动的能力,并与基于优化的基线方法和分散式强化学习基线方法进行了比较。
🔬 方法详解
问题定义:论文旨在解决耦合四足机器人在协同搬运任务中,如何在未知环境中仅利用板载传感器实现局部避障的问题。现有方法要么依赖于预先构建的地图和全局路径规划,要么在特定地形配置下过拟合,缺乏泛化能力和实时性。
核心思路:论文的核心思路是利用强化学习训练一个局部避障策略,该策略直接从板载传感器数据学习如何控制机器人的运动,以跟踪期望的速度方向并避开障碍物。通过分层控制结构和课程学习,提高策略的鲁棒性和泛化能力。
技术框架:该方法采用分层架构。顶层是一个以物体为中心的高级策略,负责感知环境并生成速度指令。底层是两个预训练的四足机器人运动策略,负责根据顶层的速度指令控制机器人的具体运动。整体流程是:传感器数据输入 -> 高级策略生成速度指令 -> 运动策略控制机器人运动 -> 环境反馈 -> 强化学习更新高级策略。
关键创新:该方法最重要的创新点在于,它将强化学习应用于耦合四足机器人的协同搬运任务,并实现了仅使用板载传感器进行局部避障。与传统的基于地图和路径规划的方法相比,该方法具有更强的鲁棒性和适应性,能够应对未知环境中的挑战。
关键设计:论文采用了一种游戏灵感的课程学习方法,逐步增加训练环境中障碍物的复杂性,以提高策略的泛化能力。此外,论文还设计了一个以物体为中心的奖励函数,鼓励机器人跟踪期望的速度方向并避开障碍物。具体的网络结构和参数设置在论文中有详细描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
硬件实验表明,该系统能够在未知环境中运动,无需地图或路径规划。与基于优化的基线方法和分散式强化学习基线方法相比,该方法在避障能力和运动效率方面均有显著提升。具体的性能数据和提升幅度在论文正文中给出,摘要中未提及。
🎯 应用场景
该研究成果可应用于仓库管理、建筑工地等需要多机器人协同搬运的场景。该方法无需预先构建地图,能够适应动态变化的未知环境,具有很高的实用价值。未来可进一步扩展到更多类型的机器人和更复杂的搬运任务,例如在灾难救援、物流运输等领域发挥作用。
📄 摘要(原文)
Robotic collaborative carrying could greatly benefit human activities like warehouse and construction site management. However, coordinating the simultaneous motion of multiple robots represents a significant challenge. Existing works primarily focus on obstacle-free environments, making them unsuitable for most real-world applications. Works that account for obstacles, either overfit to a specific terrain configuration or rely on pre-recorded maps combined with path planners to compute collision-free trajectories. This work focuses on two quadrupedal robots mechanically connected to a carried object. We propose a Reinforcement Learning (RL)-based policy that enables tracking a commanded velocity direction while avoiding collisions with nearby obstacles using only onboard sensing, eliminating the need for precomputed trajectories and complete map knowledge. Our work presents a hierarchical architecture, where a perceptive high-level object-centric policy commands two pretrained locomotion policies. Additionally, we employ a game-inspired curriculum to increase the complexity of obstacles in the terrain progressively. We validate our approach on two quadrupedal robots connected to a bar via spherical joints, benchmarking it against optimization-based and decentralized RL baselines. Our hardware experiments demonstrate the ability of our system to locomote in unknown environments without the need for a map or a path planner. The video of our work is available in the multimedia material.