CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing

📄 arXiv: 2501.07985v2 📥 PDF

作者: Emma Cramer, Lukas Jäschke, Sebastian Trimpe

分类: cs.RO, cs.LG

发布日期: 2025-01-14 (更新: 2025-06-02)


💡 一句话要点

提出CHEQ算法,用于机器人抛光中安全可变的阻抗学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人抛光 强化学习 阻抗控制 自适应混合控制 安全强化学习

📋 核心要点

  1. 接触式机器人任务(如抛光)建模困难,传统控制面临挑战,而深度强化学习存在数据效率和安全性问题。
  2. 论文提出自适应混合强化学习算法CHEQ,融合经典控制的结构和强化学习的学习能力,提升数据效率和安全性。
  3. 实验表明,CHEQ在机器人抛光任务中,仅需少量训练即可在硬件上实现安全有效的控制,并优于传统强化学习。

📝 摘要(中文)

机器人系统越来越多地应用于工业自动化,其中抛光等接触式任务需要灵巧性和顺应性。这些任务难以建模,给传统控制带来了挑战。深度强化学习(RL)通过直接从数据中学习模型和控制策略,提供了一个有希望的解决方案。然而,由于数据效率低和探索不安全,其在现实世界中的应用受到限制。自适应混合RL方法自适应地融合了经典控制和RL,结合了两者的优点:来自控制的结构和来自RL的学习。这提高了数据效率和探索安全性。然而,它们在硬件应用中的潜力仍未被充分探索,迄今为止还没有在物理系统上进行评估。这种评估对于充分评估这些方法在现实环境中的实用性和有效性至关重要。本文展示了混合RL算法CHEQ在机器人抛光中的实验演示,该抛光具有可变阻抗,这是一项需要精确力和速度跟踪的任务。在仿真中,我们表明可变阻抗增强了抛光性能。我们将独立RL与自适应混合RL进行比较,证明CHEQ在遵守安全约束的同时实现了有效的学习。在硬件上,CHEQ实现了有效的抛光行为,仅需八小时的训练,并且仅发生五次失败。这些结果突出了自适应混合RL在直接在硬件上训练的现实世界接触式任务中的潜力。

🔬 方法详解

问题定义:论文旨在解决机器人抛光任务中,传统控制方法难以建模和深度强化学习数据效率低、探索不安全的问题。现有方法难以在保证安全性的前提下,实现高效的力/速度精确控制。

核心思路:论文的核心思路是结合经典控制和强化学习的优点,利用经典控制提供安全保障和结构信息,利用强化学习进行自适应学习和优化,从而实现安全高效的机器人抛光控制。

技术框架:CHEQ算法采用自适应混合强化学习框架。该框架包含以下主要模块:1) 经典控制器:提供初始控制策略和安全保障;2) 强化学习代理:学习优化控制策略;3) 自适应混合器:根据当前状态,自适应地调整经典控制和强化学习控制的权重,实现二者的融合。

关键创新:论文的关键创新在于提出了一种安全可变的阻抗学习方法,通过自适应混合强化学习框架,实现了在保证安全性的前提下,对机器人阻抗参数进行优化学习。这种方法能够有效地提高机器人抛光任务的性能。

关键设计:CHEQ算法的关键设计包括:1) 使用高斯过程回归来估计状态的不确定性,并以此作为自适应混合器的输入;2) 设计了合适的奖励函数,鼓励机器人实现期望的力和速度;3) 使用了Trust Region Policy Optimization (TRPO)算法作为强化学习代理的学习算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CHEQ算法在机器人抛光任务中表现出色。在仿真环境中,可变阻抗显著提升了抛光性能。在硬件实验中,CHEQ仅需8小时的训练,且仅发生5次失败,即可实现有效的抛光行为。与传统的强化学习方法相比,CHEQ在保证安全性的前提下,实现了更快的学习速度和更高的控制精度。

🎯 应用场景

该研究成果可应用于各种需要精确力和速度控制的接触式机器人任务,如打磨、装配、医疗手术等。通过自适应学习,机器人能够更好地适应不同的工件和环境,提高生产效率和产品质量。未来,该方法有望推广到更复杂的机器人系统中,实现更智能、更安全的自动化生产。

📄 摘要(原文)

Robotic systems are increasingly employed for industrial automation, with contact-rich tasks like polishing requiring dexterity and compliant behaviour. These tasks are difficult to model, making classical control challenging. Deep reinforcement learning (RL) offers a promising solution by enabling the learning of models and control policies directly from data. However, its application to real-world problems is limited by data inefficiency and unsafe exploration. Adaptive hybrid RL methods blend classical control and RL adaptively, combining the strengths of both: structure from control and learning from RL. This has led to improvements in data efficiency and exploration safety. However, their potential for hardware applications remains underexplored, with no evaluations on physical systems to date. Such evaluations are critical to fully assess the practicality and effectiveness of these methods in real-world settings. This work presents an experimental demonstration of the hybrid RL algorithm CHEQ for robotic polishing with variable impedance, a task requiring precise force and velocity tracking. In simulation, we show that variable impedance enhances polishing performance. We compare standalone RL with adaptive hybrid RL, demonstrating that CHEQ achieves effective learning while adhering to safety constraints. On hardware, CHEQ achieves effective polishing behaviour, requiring only eight hours of training and incurring just five failures. These results highlight the potential of adaptive hybrid RL for real-world, contact-rich tasks trained directly on hardware.