Learning Multi-Agent Local Collision-Avoidance for Collaborative Carrying tasks with Coupled Quadrupedal Robots

作者: Francesca Bray, Simone Tolomei, Andrei Cramariuc, Cesar Cadena, Marco Hutter

分类: cs.RO

发布日期: 2026-03-24

💡 一句话要点

提出基于强化学习的多智能体局部避障策略，用于耦合四足机器人的协同搬运任务

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体系统 协同搬运 四足机器人 强化学习 局部避障 课程学习 机器人控制

📋 核心要点

现有协同搬运研究主要集中在无障碍环境中，或依赖预先录制的地图和路径规划，难以适应真实场景。
提出一种基于强化学习的分层策略，利用板载传感器实现局部避障，无需预先计算轨迹或完整地图信息。
硬件实验表明，该系统能够在未知环境中运动，并优于基于优化的基线方法和分散式强化学习基线方法。

📝 摘要（中文）

本研究针对多机器人协同搬运问题，提出了一种基于强化学习(RL)的策略，用于控制两个机械连接的四足机器人。该策略仅使用板载传感器，无需预先计算的轨迹和完整的地图信息，即可在跟踪指令速度方向的同时避开障碍物。论文采用分层架构，其中以物体为中心的高级感知策略指挥两个预训练的运动策略。此外，采用游戏灵感的课程学习方法，逐步增加地形中障碍物的复杂性。通过硬件实验，验证了该方法在未知环境中运动的能力，并与基于优化的基线方法和分散式强化学习基线方法进行了比较。

🔬 方法详解

问题定义：论文旨在解决耦合四足机器人在协同搬运任务中，如何在未知环境中仅利用板载传感器实现局部避障的问题。现有方法要么依赖于预先构建的地图和全局路径规划，要么在特定地形配置下过拟合，缺乏泛化能力和实时性。

核心思路：论文的核心思路是利用强化学习训练一个局部避障策略，该策略直接从板载传感器数据学习如何控制机器人的运动，以跟踪期望的速度方向并避开障碍物。通过分层控制结构和课程学习，提高策略的鲁棒性和泛化能力。

技术框架：该方法采用分层架构。顶层是一个以物体为中心的高级策略，负责感知环境并生成速度指令。底层是两个预训练的四足机器人运动策略，负责根据顶层的速度指令控制机器人的具体运动。整体流程是：传感器数据输入 -> 高级策略生成速度指令 -> 运动策略控制机器人运动 -> 环境反馈 -> 强化学习更新高级策略。

关键创新：该方法最重要的创新点在于，它将强化学习应用于耦合四足机器人的协同搬运任务，并实现了仅使用板载传感器进行局部避障。与传统的基于地图和路径规划的方法相比，该方法具有更强的鲁棒性和适应性，能够应对未知环境中的挑战。

关键设计：论文采用了一种游戏灵感的课程学习方法，逐步增加训练环境中障碍物的复杂性，以提高策略的泛化能力。此外，论文还设计了一个以物体为中心的奖励函数，鼓励机器人跟踪期望的速度方向并避开障碍物。具体的网络结构和参数设置在论文中有详细描述，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

硬件实验表明，该系统能够在未知环境中运动，无需地图或路径规划。与基于优化的基线方法和分散式强化学习基线方法相比，该方法在避障能力和运动效率方面均有显著提升。具体的性能数据和提升幅度在论文正文中给出，摘要中未提及。

🎯 应用场景

该研究成果可应用于仓库管理、建筑工地等需要多机器人协同搬运的场景。该方法无需预先构建地图，能够适应动态变化的未知环境，具有很高的实用价值。未来可进一步扩展到更多类型的机器人和更复杂的搬运任务，例如在灾难救援、物流运输等领域发挥作用。

📄 摘要（原文）

Robotic collaborative carrying could greatly benefit human activities like warehouse and construction site management. However, coordinating the simultaneous motion of multiple robots represents a significant challenge. Existing works primarily focus on obstacle-free environments, making them unsuitable for most real-world applications. Works that account for obstacles, either overfit to a specific terrain configuration or rely on pre-recorded maps combined with path planners to compute collision-free trajectories. This work focuses on two quadrupedal robots mechanically connected to a carried object. We propose a Reinforcement Learning (RL)-based policy that enables tracking a commanded velocity direction while avoiding collisions with nearby obstacles using only onboard sensing, eliminating the need for precomputed trajectories and complete map knowledge. Our work presents a hierarchical architecture, where a perceptive high-level object-centric policy commands two pretrained locomotion policies. Additionally, we employ a game-inspired curriculum to increase the complexity of obstacles in the terrain progressively. We validate our approach on two quadrupedal robots connected to a bar via spherical joints, benchmarking it against optimization-based and decentralized RL baselines. Our hardware experiments demonstrate the ability of our system to locomote in unknown environments without the need for a map or a path planner. The video of our work is available in the multimedia material.

Learning Multi-Agent Local Collision-Avoidance for Collaborative Carrying tasks with Coupled Quadrupedal Robots

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理