Stochastic Minimum-Cost Reach-Avoid Reinforcement Learning
作者: Jingduo Pan, Taoran Wu, Yiling Xue, Bai Xue
分类: cs.LG
发布日期: 2026-05-12
备注: Accepted at the Forty-third International Conference on Machine Learning (ICML 2026)
💡 一句话要点
提出基于RAPC的强化学习方法,解决随机环境下概率可达-避障约束下的成本优化问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 约束优化 可达-避障 概率约束 贝尔曼方程
📋 核心要点
- 现有方法难以在随机环境中同时保证概率可达-避障约束和优化成本。
- 引入可达-避障概率证书(RAPC),并构建基于收缩的贝尔曼公式,将约束整合到强化学习中。
- 在MuJoCo模拟器中验证,成本性能提升,可达-避障满足率更高。
📝 摘要(中文)
本文研究随机最小成本可达-避障强化学习问题,其中智能体必须在满足至少为$p$的概率的可达-避障规范的同时,最小化随机环境中的预期累积成本。现有的安全和约束强化学习方法通常无法在学习环境中同时强制执行概率可达-避障约束并在随机环境中优化成本。为了解决这个挑战,我们引入了可达-避障概率证书(RAPC),它识别出满足随机可达-避障约束的状态。在RAPC的基础上,我们开发了一个基于收缩的贝尔曼公式,作为将可达-避障考虑因素整合到强化学习中的一个原则性替代方法,从而能够在概率约束下进行成本优化。我们建立了所提出的算法关于所得目标的几乎确定的局部最优策略的收敛性。在MuJoCo模拟器中的实验表明,成本性能得到改善,并且可达-避障满足率始终较高。
🔬 方法详解
问题定义:论文旨在解决随机环境下的强化学习问题,该问题要求智能体在满足概率约束的可达-避障规范的前提下,最小化累积成本。现有的安全强化学习和约束强化学习方法通常难以同时处理概率约束和成本优化,尤其是在随机环境中,这限制了它们在实际任务中的应用。
核心思路:论文的核心思路是引入可达-避障概率证书(RAPC),用于识别满足概率约束的状态。基于RAPC,构建一个基于收缩的贝尔曼公式,将可达-避障约束集成到强化学习框架中,从而在满足概率约束的同时优化成本。这种方法将约束满足问题转化为一个更容易处理的优化问题。
技术框架:整体框架包含以下几个关键模块:1) RAPC计算模块,用于估计在给定状态下满足可达-避障规范的概率;2) 基于收缩的贝尔曼更新模块,该模块利用RAPC信息更新值函数,确保策略满足概率约束;3) 策略优化模块,用于在满足约束的前提下,最小化累积成本。算法迭代地更新RAPC、值函数和策略,直到收敛。
关键创新:论文的关键创新在于提出了RAPC的概念,并将其与基于收缩的贝尔曼公式相结合。RAPC提供了一种有效的方式来量化状态的可达-避障概率,而基于收缩的贝尔曼公式保证了算法的收敛性。这种结合使得在随机环境中进行概率约束下的成本优化成为可能。
关键设计:RAPC的计算依赖于对环境动态的估计,可以使用模型学习或无模型方法。基于收缩的贝尔曼更新使用了一个惩罚项,该惩罚项基于RAPC值,用于鼓励智能体选择满足约束的状态。损失函数包括成本项和惩罚项,通过调整惩罚项的权重来平衡成本优化和约束满足。具体网络结构未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的方法在MuJoCo模拟器中取得了显著的性能提升。与现有方法相比,该方法在保证较高可达-避障满足率的同时,能够显著降低累积成本。具体的性能数据和提升幅度在论文中进行了详细的展示,证明了该方法的有效性。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、无人机飞行等领域,在这些场景中,智能体需要在满足安全约束(如避障、到达目标区域)的同时,尽可能降低成本(如时间、能量)。该方法可以提高智能体在复杂、不确定环境中的安全性和效率,具有重要的实际应用价值。
📄 摘要(原文)
We study stochastic minimum-cost reach-avoid reinforcement learning, where an agent must satisfy a reach-avoid specification with probability at least $p$ while minimizing expected cumulative costs in stochastic environments. Existing safe and constrained reinforcement learning methods typically fail to jointly enforce probabilistic reach-avoid constraints and optimize cost in the learning setting in stochastic environments. To address this challenge, we introduce reach-avoid probability certificates (RAPCs), which identify states from which stochastic reach-avoid constraints are satisfiable. Building on RAPCs, we develop a contraction-based Bellman formulation that serves as a principled surrogate for integrating reach-avoid considerations into reinforcement learning, enabling cost optimization under probabilistic constraints. We establish almost sure convergence of the proposed algorithms to locally optimal policies with respect to the resulting objective. Experiments in the MuJoCo simulator demonstrate improved cost performance and consistently higher reach-avoid satisfaction rates.