Learning Dynamic Pick-and-Place for a Legged Manipulator

作者: Moonkyu Jung, Jiseong Lee, Zhengmao He, Donghoon Youm, Juhyeok Mun, HyeongJun Kim, Hyunsik Oh, Donghyuk Choi, Jungwoo Hur, Jie Song, Jemin Hwangbo

分类: cs.RO, cs.AI

发布日期: 2026-05-15

备注: Accepted to IEEE Robotics and Automation Letters 2026

期刊: IEEE Robotics and Automation Letters, vol. 11, no. 6, pp. 7652-7659, 2026

DOI: 10.1109/LRA.2026.3688092

💡 一句话要点

提出一种基于强化学习的腿式机器人动态抓取放置框架，提升负载能力和工作空间。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 腿式机器人 动态抓取放置 强化学习 质量估计 全身控制

📋 核心要点

现有腿式机器人操作方法在动态抓取放置任务中，难以兼顾精确操作和协调运动，尤其是在负载变化时。
论文提出分层强化学习框架，结合显式质量估计模块，实现对不同重量物体的自适应全身控制。
实验结果表明，该系统在仿真和真实环境中均表现出良好的抓取放置成功率，并能处理较重的有效载荷。

📝 摘要（中文）

本文提出了一种用于腿式机器人动态抓取放置任务的分层强化学习框架，该框架使用配备6自由度机械臂的四足机器人。该框架包含一个显式的质量估计模块，能够对不同重量的物体进行自适应全身控制。在仿真中，该系统对于高达2.3公斤的有效载荷实现了86.05%的成功率。通过在六个代表性场景中进行的真实世界实验进一步验证了该方法，这些场景控制了物体物理属性（尺寸和质量）和任务高度的变化。具体而言，在从地面到1.1米高的桌面之间的宽广垂直工作空间内，该系统对于高达1.3公斤的有效载荷表现出73.3%的平均成功率，平均执行时间为4.06秒。与先前处理轻量级物体并以缓慢的分段运动执行抓取放置动作的工作不同，所提出的框架利用并发的运动和操作来实现动态、连续的执行。这些结果证明了四足移动机械手在自适应、全身抓取放置方面具有更大的有效载荷和扩展的工作空间的潜力。

🔬 方法详解

问题定义：现有腿式机器人的抓取放置任务通常局限于静态环境或轻量级物体，难以在动态环境中处理重量变化较大的物体，并且操作速度较慢，工作空间受限。痛点在于缺乏对负载变化的自适应能力和高效的运动规划。

核心思路：论文的核心思路是利用分层强化学习，将复杂的抓取放置任务分解为运动控制和操作控制两个层次，并通过显式的质量估计模块来增强机器人对负载变化的适应性。这种设计允许机器人同时进行运动和操作，从而实现动态、连续的执行。

技术框架：整体框架包含三个主要模块：1) 运动控制模块，负责控制四足机器人的运动，保持平衡和稳定；2) 操作控制模块，负责控制机械臂的运动，完成抓取和放置动作；3) 质量估计模块，用于估计被抓取物体的质量，并将估计结果反馈给运动控制模块和操作控制模块，以调整控制策略。这些模块通过强化学习进行训练，以实现协同控制。

关键创新：最重要的技术创新点在于显式的质量估计模块和分层强化学习框架的结合。质量估计模块使得机器人能够根据负载变化自适应地调整运动和操作策略，而分层强化学习框架则简化了复杂任务的学习过程，提高了学习效率。与现有方法相比，该方法能够处理更重的有效载荷，并在更大的工作空间内实现动态抓取放置。

关键设计：质量估计模块可能采用卡尔曼滤波或其他滤波算法，根据机器人的运动状态和力/力矩传感器的数据来估计物体的质量。强化学习算法可能采用Actor-Critic方法，其中Actor网络负责生成运动和操作指令，Critic网络负责评估当前状态的价值。损失函数可能包括任务完成损失、平衡损失和能量消耗损失等。具体的网络结构和参数设置需要在实验中进行调整和优化。

🖼️ 关键图片

📊 实验亮点

该系统在仿真环境中实现了86.05%的抓取放置成功率，有效载荷高达2.3公斤。在真实世界实验中，对于高达1.3公斤的有效载荷，在0到1.1米的垂直工作空间内，平均成功率为73.3%，平均执行时间为4.06秒。这些结果表明，该方法在负载能力、工作空间和执行效率方面均优于现有方法。

🎯 应用场景

该研究成果可应用于物流仓储、灾难救援、野外勘探等领域。腿式机器人能够克服复杂地形，结合机械臂的灵活操作，实现自主搬运、目标搜索和精细操作等任务。未来，该技术有望在非结构化环境中替代人工，提高工作效率和安全性。

📄 摘要（原文）

Legged manipulators extend robotic capabilities beyond static manipulation by integrating agile locomotion with versatile arm control. However, achieving precise manipulation while maintaining coordinated locomotion remains a major challenge. This work presents a hierarchical reinforcement learning framework for dynamic pick-and-place tasks using a quadruped equipped with a 6-DOF robotic arm. The framework incorporates an explicit mass estimation module enabling adaptive whole-body control for objects with varying weights. In simulation, the system achieves an 86.05% success rate with payloads up to 2.3 kg. The approach is further validated through real-world experiments across six representative scenarios with controlled variations in object physical properties (size and mass) and task heights. Specifically, within a wide vertical workspace ranging from ground level to 1.1~m-high tabletops, the system demonstrates an average success rate of 73.3% for payloads up to 1.3 kg, with an average execution time of 4.06 s. Unlike prior works that handle lightweight objects and execute pick-and-place motions with slow, piecewise motions, the proposed framework exploits concurrent locomotion and manipulation for dynamic, continuous execution. These results demonstrate the potential of quadrupedal mobile manipulators for adaptive, whole-body pick-and-place with heavier payloads and extended workspaces.

Learning Dynamic Pick-and-Place for a Legged Manipulator

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理