SRL-VIC: A Variable Stiffness-Based Safe Reinforcement Learning for Contact-Rich Robotic Tasks
作者: Heng Zhang, Gokhan Solak, Gustavo J. G. Lahr, Arash Ajoudani
分类: cs.RO
发布日期: 2024-06-19
备注: Accepted by IEEE RA-L,video is available at https://youtu.be/ksWXR3vByoQ
期刊: IEEE Robotics and Automation Letters, vol. 9, no. 6, pp. 5631-5638, June 2024
💡 一句话要点
提出SRL-VIC以解决接触丰富机器人任务中的安全探索问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 安全强化学习 可变阻抗控制 机器人任务 接触丰富环境 动态调整 风险评估 恢复策略 在线学习
📋 核心要点
- 现有的强化学习方法在接触丰富的操作任务中面临安全探索的挑战,尤其是在复杂的非结构化环境中。
- 本文提出的SRL-VIC框架结合了可变阻抗控制器,采用安全评估和恢复策略网络来增强安全性。
- 实验结果显示,SRL-VIC在接触丰富的迷宫任务中表现优异,相较于基线方法实现了更好的任务完成效率和安全性。
📝 摘要(中文)
强化学习(RL)在复杂和连续的机器人任务中展现出良好的前景,但在非结构化环境中的接触丰富操作任务中,安全探索仍然是主要挑战。为此,本文提出了SRL-VIC:一种结合可变阻抗控制器(VIC)的无模型安全RL框架。具体而言,安全评估网络和恢复策略网络被预训练,前者在执行前评估下一动作的安全性,后者在风险值高时建议纠正动作。此外,任务策略在线更新,不仅完成任务,还调节刚度参数以保持安全和顺应的特性。实验结果表明,该框架在接触丰富的迷宫任务中优于基线方法,实现了高效任务完成与安全保障之间的良好平衡。
🔬 方法详解
问题定义:本文旨在解决在接触丰富的机器人任务中,强化学习面临的安全探索问题。现有方法在高风险环境下缺乏有效的安全保障机制,导致潜在的损害和失败。
核心思路:SRL-VIC框架通过引入可变阻抗控制器(VIC)和安全评估机制,确保机器人在执行任务时能够动态调整刚度,以适应环境变化并降低风险。
技术框架:该框架包括安全评估网络和恢复策略网络,前者在动作执行前评估安全性,后者在高风险情况下提供纠正动作。任务策略则在线更新,确保任务完成的同时保持安全性。
关键创新:SRL-VIC的核心创新在于结合了安全评估与可变阻抗控制,形成了一种动态调整的安全策略,与传统方法相比,显著提高了在复杂环境中的安全性和适应性。
关键设计:在设计中,安全评估网络使用风险值来评估动作的安全性,恢复策略网络则基于风险值提供纠正动作。任务策略的刚度参数调节是通过在线学习实现的,确保了机器人在执行任务时的顺应性和安全性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SRL-VIC在接触丰富的迷宫任务中显著优于基线方法,尤其是在引入恢复机制和可变阻抗控制后,任务完成效率和安全性之间实现了良好的平衡。具体而言,框架在多次实验中展现出较高的成功率和较低的风险值,证明了其有效性。
🎯 应用场景
SRL-VIC框架具有广泛的应用潜力,特别是在需要高安全性和灵活性的机器人操作任务中,如医疗机器人、服务机器人和工业自动化等领域。其动态调整的安全策略能够有效应对复杂和不确定的环境,提高机器人在实际应用中的可靠性与效率。
📄 摘要(原文)
Reinforcement learning (RL) has emerged as a promising paradigm in complex and continuous robotic tasks, however, safe exploration has been one of the main challenges, especially in contact-rich manipulation tasks in unstructured environments. Focusing on this issue, we propose SRL-VIC: a model-free safe RL framework combined with a variable impedance controller (VIC). Specifically, safety critic and recovery policy networks are pre-trained where safety critic evaluates the safety of the next action using a risk value before it is executed and the recovery policy suggests a corrective action if the risk value is high. Furthermore, the policies are updated online where the task policy not only achieves the task but also modulates the stiffness parameters to keep a safe and compliant profile. A set of experiments in contact-rich maze tasks demonstrate that our framework outperforms the baselines (without the recovery mechanism and without the VIC), yielding a good trade-off between efficient task accomplishment and safety guarantee. We show our policy trained on simulation can be deployed on a physical robot without fine-tuning, achieving successful task completion with robustness and generalization. The video is available at https://youtu.be/ksWXR3vByoQ.