Kernel-Based Safe Exploration in Deep Reinforcement Learning

📄 arXiv: 2605.22207v1 📥 PDF

作者: Rupak Majumdar, Nikhil Singh, Sadegh Soudjani

分类: eess.SY, cs.LG

发布日期: 2026-05-21

备注: Accepted at L4DC Conference (22 Jan 2026)


💡 一句话要点

提出基于核的安全探索方法以解决深度强化学习中的安全问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 安全探索 障碍函数 核嵌入 控制策略 概率安全 动态系统 机器人控制

📋 核心要点

  1. 现有方法在学习障碍函数时需要大量数据或对系统动态的限制,导致安全性保障不足。
  2. 本文提出的核基安全探索(KBSE)算法通过核嵌入技术在探索过程中同时学习策略和障碍函数,提升安全性。
  3. 实验结果显示,KBSE在复杂控制任务中能够有效合成概率安全的控制策略,且奖励积累没有下降。

📝 摘要(中文)

安全性在深度强化学习算法的实际应用中一直是一个主要关注点。本文提出了一种新的方法,通过学习障碍函数与策略同时进行,确保学习的策略不会进入不安全区域。障碍函数将初始状态赋予低值,不安全状态赋予高值,并在每次转移中期望减少。与以往直接从探索数据中学习障碍函数的方法相比,本文的方法利用核嵌入技术,在动态未知的随机系统中进行障碍函数的学习。所提出的核基安全探索算法(KBSE)在探索过程中识别安全违规,并在违规时调整不安全动作为安全动作,从而确保探索限制在不安全状态的概率边界内。实验结果表明,KBSE在多个复杂的连续控制基准测试中表现出良好的性能,能够在不降低奖励积累的情况下合成概率安全的控制策略。

🔬 方法详解

问题定义:本文旨在解决深度强化学习中安全性不足的问题,现有方法在学习障碍函数时往往需要大量数据或对系统动态有严格限制,导致无法有效保证策略的安全性。

核心思路:提出的核基安全探索(KBSE)算法通过核嵌入技术,在探索过程中同时学习控制策略和障碍函数,从而提高安全性保障。障碍函数用于界定安全区域,确保学习的策略不会进入不安全状态。

技术框架:KBSE算法的整体架构包括两个主要模块:策略学习模块和障碍函数学习模块。策略学习模块负责优化控制策略,而障碍函数学习模块则通过条件均值嵌入的方式迭代计算障碍函数,提供安全性保障。

关键创新:最重要的技术创新在于使用核嵌入技术来学习障碍函数,这一方法相比于传统的直接从探索数据中学习障碍函数的方式,能够在动态未知的情况下有效工作,并提供更好的概率安全保障。

关键设计:在算法设计中,障碍函数通过条件均值嵌入表示,探索算法利用学习到的障碍函数识别安全违规,并在违规时调整不安全动作为安全动作。关键参数设置和损失函数设计确保了算法的有效性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KBSE在多个复杂的连续控制基准测试中表现优异,相比于传统方法,能够在保证安全性的同时,奖励积累没有显著下降,显示出良好的实用性和有效性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人控制和工业自动化等需要高安全性的场景。通过实现概率安全的控制策略,KBSE可以在不确定环境中有效地进行探索,降低事故风险,提升系统的可靠性和安全性。未来,该方法有望在更多复杂系统中推广应用,推动安全强化学习的发展。

📄 摘要(原文)

Safety has been a major concern when deploying deep reinforcement learning algorithms in the real world. A promising direction that ensures that the learned policy does not visit unsafe regions is to learn a \emph{barrier function} along with the policy. A barrier is a function from states to reals that assigns low values to the initial states, high values to the unsafe states, and decreases in expectation on each transition; such a function can be used to bound the probability of reaching unsafe states. Previous attempts learned a barrier function directly from exploration data, but this required either large amounts of data or restrictions on the system dynamics. In this paper, we show how kernel embeddings can be used to learn barrier functions during deep reinforcement learning for stochastic systems with unknown dynamics. Our algorithm, \emph{kernel-based safe exploration (KBSE)}, learns an optimal policy and a barrier simultaneously during exploration. The barriers are computed iteratively, represented as conditional mean embeddings, and provide better probabilistic safety guarantees with more exploration. The exploration algorithm uses the learned barrier functions to identify safety violations. In the case of violation, it intervenes to modify the unsafe action to a safe action, thereby ensuring that the exploration is restricted to actions that bound the probability of reaching unsafe states. We evaluate KBSE on several complex continuous control benchmarks. Experimental results establish our new algorithm to be suitable for synthesizing control policies that are probabilistically safe without degradation in reward accumulation.