Safety-Driven Deep Reinforcement Learning Framework for Cobots: A Sim2Real Approach
作者: Ammar N. Abbas, Shakra Mehak, Georgios C. Chasparis, John D. Kelleher, Michael Guilfoyle, Maria Chiara Leva, Aswin K Ramasubramanian
分类: cs.RO, cs.LG
发布日期: 2024-07-02
备注: This paper has been accepted for publication in the proceedings of the IEEE/IFAC International Conference on Control, Decision, and Information Technologies (CoDIT), 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种安全驱动的深度强化学习框架,用于协作机器人的Sim2Real迁移。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 协作机器人 安全约束 Sim2Real 机器人控制
📋 核心要点
- 现有强化学习方法在机器人控制中缺乏对安全约束的有效集成,可能导致实际应用中的危险行为。
- 该论文提出将安全约束直接嵌入到深度强化学习模型中,通过仿真训练提高机器人在真实环境中的安全性。
- 实验结果表明,该方法在仿真和真实机器人测试中均显著提高了安全性和任务成功率,优于传统方法。
📝 摘要(中文)
本研究提出了一种新颖的方法,将安全约束融入到机器人仿真的深度强化学习(DRL)训练中。该框架将ISO 10218标准规定的速度约束等安全要求,直接整合到DRL模型中,使其成为机器人学习算法的一部分。通过在各种场景下(包括有无避障的抓取任务)对DRL模型进行测试,评估了这些安全约束的效率。验证过程包括对DRL模型对潜在危险的响应及其合规性的全面仿真测试。此外,根据功能安全标准IEC 61508评估了系统的性能,以确定安全完整性等级。研究表明,机器人系统的安全性能得到了显著提高。所提出的DRL模型能够预测和减轻危险,同时保持运行效率。该研究在一个带有安全传感器的协作机器人手臂的测试平台上进行了验证,并使用平均安全违规次数、避障和成功抓取次数等指标进行了评估。在仿真测试场景中,该方法比传统方法平均成功率提高了16.5%,在测试平台上提高了2.5%,且没有发生安全违规。
🔬 方法详解
问题定义:现有基于深度强化学习的机器人控制方法,在实际部署中面临安全风险,例如速度过快、碰撞等,难以满足协作机器人对安全性的严格要求。传统方法通常依赖于事后安全措施,无法在学习过程中主动避免危险行为。
核心思路:该论文的核心思路是将安全约束(如速度限制)直接融入到深度强化学习的奖励函数或状态空间中,引导智能体在学习过程中主动学习安全的行为策略。通过在仿真环境中进行大量训练,使智能体能够预测和规避潜在的危险,从而提高在真实环境中的安全性。
技术框架:该框架主要包含以下几个模块:1) 基于Gazebo的机器人仿真环境,用于训练DRL智能体;2) DRL智能体,采用深度神经网络作为策略网络,负责学习控制策略;3) 安全约束模块,将ISO 10218等安全标准转化为可量化的奖励或状态约束;4) Sim2Real迁移策略,将仿真环境中学习到的策略迁移到真实机器人上。整体流程是:在仿真环境中,DRL智能体与环境交互,根据奖励函数和安全约束进行学习,最终得到一个安全可靠的控制策略,然后将该策略部署到真实机器人上。
关键创新:该论文最重要的创新点在于将安全约束直接嵌入到深度强化学习的训练过程中,而不是作为事后的安全措施。这种方法能够使智能体在学习过程中主动学习安全的行为,从而提高在真实环境中的安全性和可靠性。此外,该论文还提出了一种有效的Sim2Real迁移策略,能够将仿真环境中学习到的策略成功地迁移到真实机器人上。
关键设计:论文中,安全约束被转化为奖励函数的惩罚项,例如,当机器人速度超过安全阈值时,会受到负奖励。此外,论文还采用了特定的网络结构和训练算法,以提高智能体的学习效率和泛化能力。具体的参数设置和网络结构在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
该研究在仿真环境中,所提出的安全驱动的DRL方法比传统方法平均成功率提高了16.5%,在真实机器人测试平台上提高了2.5%,且没有发生安全违规。这些结果表明,该方法能够显著提高机器人的安全性和任务成功率。
🎯 应用场景
该研究成果可广泛应用于协作机器人、工业自动化、智能制造等领域。通过提高机器人的安全性和可靠性,可以降低生产事故的风险,提高生产效率,并促进人机协作的进一步发展。该方法还可扩展到其他需要安全保障的机器人应用场景,如医疗机器人、服务机器人等。
📄 摘要(原文)
This study presents a novel methodology incorporating safety constraints into a robotic simulation during the training of deep reinforcement learning (DRL). The framework integrates specific parts of the safety requirements, such as velocity constraints, as specified by ISO 10218, directly within the DRL model that becomes a part of the robot's learning algorithm. The study then evaluated the efficiency of these safety constraints by subjecting the DRL model to various scenarios, including grasping tasks with and without obstacle avoidance. The validation process involved comprehensive simulation-based testing of the DRL model's responses to potential hazards and its compliance. Also, the performance of the system is carried out by the functional safety standards IEC 61508 to determine the safety integrity level. The study indicated a significant improvement in the safety performance of the robotic system. The proposed DRL model anticipates and mitigates hazards while maintaining operational efficiency. This study was validated in a testbed with a collaborative robotic arm with safety sensors and assessed with metrics such as the average number of safety violations, obstacle avoidance, and the number of successful grasps. The proposed approach outperforms the conventional method by a 16.5% average success rate on the tested scenarios in the simulations and 2.5% in the testbed without safety violations. The project repository is available at https://github.com/ammar-n-abbas/sim2real-ur-gym-gazebo.