Dynamic object goal pushing with mobile manipulators through model-free constrained reinforcement learning

作者: Ioannis Dadiotis, Mayank Mittal, Nikos Tsagarakis, Marco Hutter

分类: cs.RO, cs.LG, eess.SY

发布日期: 2025-02-03 (更新: 2025-10-21)

备注: presented at ICRA 2025, Video: https://youtu.be/wGAdPGVf9Ws?si=pi83ONWofHHqbFG0

DOI: 10.1109/ICRA55743.2025.11128166

💡 一句话要点

提出基于无模型约束强化学习的移动操作臂动态目标物体推移方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 移动操作臂 物体推移 强化学习 无模型控制 约束强化学习

📋 核心要点

移动操作臂在现实环境中推动物体时，物体的物理属性和摩擦力存在不确定性，这给任务带来了挑战。
论文提出一种基于约束强化学习的控制器，通过学习推移动作序列，控制移动操作臂将未知物体移动到目标位置。
实验结果表明，该方法在仿真和真实机器人上均取得了较高的成功率，并对不同属性的物体具有鲁棒性。

📝 摘要（中文）

本文提出了一种基于学习的控制器，用于移动操作臂通过一系列推移动作将未知物体移动到期望的位置和偏航方向。该控制器针对机械臂和移动底座的运动，采用约束强化学习（RL）进行训练。实验在一个配备机械臂的四足机器人上进行，结果表明，所学习的策略在仿真中达到了91.35%的成功率，在硬件上至少达到了80%的成功率。大量的硬件实验表明，该方法对不同质量、材料、尺寸和形状的未知物体具有很高的鲁棒性。它能够反应式地发现推移的位置和方向，从而在仅观察物体姿态的情况下实现丰富的接触行为。此外，还展示了学习策略在防止物体倾倒方面的自适应行为。

🔬 方法详解

问题定义：论文旨在解决移动操作臂在未知物体属性的情况下，如何通过非抓取式的推移操作，将物体移动到目标位置和姿态的问题。现有方法通常依赖于精确的物体模型和环境参数，难以应对真实世界中的不确定性，例如物体质量、摩擦系数等未知或变化的情况。

核心思路：论文的核心思路是利用无模型的约束强化学习，直接从与环境的交互中学习最优的推移策略。通过强化学习，机器人可以自主探索不同的推移动作，并根据获得的奖励来优化策略，从而适应未知物体的属性和环境变化。约束强化学习的引入，可以保证学习过程的稳定性和安全性。

技术框架：整体框架包括以下几个主要部分：1) 状态空间定义：包括物体的位置和姿态信息；2) 动作空间定义：包括机械臂的运动和移动底座的运动；3) 奖励函数设计：鼓励物体向目标位置移动，并惩罚违反约束的行为；4) 约束强化学习算法：用于训练控制器，学习最优的推移策略。具体流程是，机器人根据当前状态选择一个动作，执行该动作后，环境发生变化，机器人获得奖励，并进入下一个状态，重复此过程直到达到目标或达到最大步数。

关键创新：该论文的关键创新在于将约束强化学习应用于移动操作臂的动态目标物体推移任务，实现了对未知物体属性的鲁棒控制。与传统的基于模型的控制方法相比，该方法无需预先知道物体的精确模型，可以直接从数据中学习控制策略。此外，通过约束强化学习，可以保证学习过程的稳定性和安全性，避免出现不期望的行为。

关键设计：论文中，奖励函数的设计至关重要，它需要平衡目标达成和约束满足之间的关系。例如，可以使用稀疏奖励来鼓励物体向目标位置移动，同时使用惩罚项来避免物体倾倒或超出工作空间。此外，网络结构的选择和参数的调整也会影响学习效果。论文中可能使用了某种特定的强化学习算法，例如TRPO或PPO，并对其参数进行了优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在仿真环境中达到了91.35%的成功率，在真实机器人上至少达到了80%的成功率。通过对比实验，验证了该方法对不同质量、材料、尺寸和形状的未知物体的鲁棒性。此外，实验还展示了学习策略在防止物体倾倒方面的自适应能力，证明了该方法在复杂环境下的实用性。

🎯 应用场景

该研究成果可应用于自动化仓库、物流分拣、家庭服务机器人等领域。例如，在自动化仓库中，机器人可以利用该技术将不同形状和重量的货物推送到指定位置。在家庭服务机器人中，可以帮助用户整理物品，将物品推到指定位置，提高生活便利性。未来，该技术还可以扩展到更复杂的场景，例如在灾难救援中，机器人可以利用该技术清理障碍物。

📄 摘要（原文）

Non-prehensile pushing to move and reorient objects to a goal is a versatile loco-manipulation skill. In the real world, the object's physical properties and friction with the floor contain significant uncertainties, which makes the task challenging for a mobile manipulator. In this paper, we develop a learning-based controller for a mobile manipulator to move an unknown object to a desired position and yaw orientation through a sequence of pushing actions. The proposed controller for the robotic arm and the mobile base motion is trained using a constrained Reinforcement Learning (RL) formulation. We demonstrate its capability in experiments with a quadrupedal robot equipped with an arm. The learned policy achieves a success rate of 91.35% in simulation and at least 80% on hardware in challenging scenarios. Through our extensive hardware experiments, we show that the approach demonstrates high robustness against unknown objects of different masses, materials, sizes, and shapes. It reactively discovers the pushing location and direction, thus achieving contact-rich behavior while observing only the pose of the object. Additionally, we demonstrate the adaptive behavior of the learned policy towards preventing the object from toppling.

Dynamic object goal pushing with mobile manipulators through model-free constrained reinforcement learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理