LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy
作者: Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar
分类: cs.LG, eess.SY
发布日期: 2026-02-19
备注: 17th ACM/IEEE International Conference on Cyber-Physical Systems
💡 一句话要点
提出LexiSafe框架以解决离线安全强化学习中的安全问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 安全性 网络物理系统 词典优先级 样本复杂度 层次安全要求 决策制定
📋 核心要点
- 现有的离线安全强化学习方法在安全与奖励之间的权衡上存在不足,容易导致安全漂移。
- 提出LexiSafe框架,通过引入词典优先级和结构性偏差,确保安全对齐行为并进行样本复杂度保证。
- 实验结果显示,LexiSafe在安全违规率和任务性能上均优于现有的约束离线强化学习基线方法。
📝 摘要(中文)
离线安全强化学习在网络物理系统中愈发重要,因其训练过程中不可接受的安全违规现象以及仅能使用预先收集的数据。现有的离线安全强化学习方法通常通过约束放松或联合优化来平衡奖励与安全之间的权衡,但缺乏防止安全漂移的结构性机制。本文提出了LexiSafe,一个旨在保持安全对齐行为的离线强化学习框架。我们首先开发了LexiSafe-SC,一个标准离线安全强化学习的单成本公式,并推导出安全违规和性能次优性的界限,从而提供样本复杂度保证。随后,我们将框架扩展到具有层次安全要求的LexiSafe-MC,支持多个安全成本并进行样本复杂度分析。实验证明,LexiSafe在减少安全违规和提高任务性能方面优于约束离线基线。
🔬 方法详解
问题定义:本文旨在解决离线安全强化学习中的安全违规问题,现有方法在安全与奖励之间的权衡上存在不足,容易导致安全漂移。
核心思路:LexiSafe框架通过引入词典优先级的结构性机制,确保在强化学习过程中优先考虑安全性,从而避免安全违规现象的发生。
技术框架:LexiSafe包括两个主要模块:LexiSafe-SC用于标准离线安全强化学习的单成本公式,LexiSafe-MC则扩展到支持多个安全成本的层次安全要求。
关键创新:LexiSafe的主要创新在于结合了词典优先级与结构性偏差,提供了一种理论基础扎实且实用的安全决策方法,与现有方法相比,能够更有效地防止安全漂移。
关键设计:在LexiSafe-SC中,设计了安全违规和性能次优性的界限,并推导出样本复杂度保证;在LexiSafe-MC中,支持多个安全成本的分析,确保在复杂环境下的安全性和性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LexiSafe在安全违规率上显著降低,相较于约束离线基线,任务性能提升了约15%。这一结果验证了LexiSafe在安全性和性能之间的有效平衡,展示了其在实际应用中的潜力。
🎯 应用场景
LexiSafe框架在网络物理系统(CPS)中具有广泛的应用潜力,尤其是在自动驾驶、智能制造和医疗机器人等领域。通过确保安全性,该框架能够有效地支持决策制定,降低安全风险,提升系统的可靠性和效率。未来,LexiSafe可能推动更多安全关键应用的发展,促进智能系统的安全性提升。
📄 摘要(原文)
Offline safe reinforcement learning (RL) is increasingly important for cyber-physical systems (CPS), where safety violations during training are unacceptable and only pre-collected data are available. Existing offline safe RL methods typically balance reward-safety tradeoffs through constraint relaxation or joint optimization, but they often lack structural mechanisms to prevent safety drift. We propose LexiSafe, a lexicographic offline RL framework designed to preserve safety-aligned behavior. We first develop LexiSafe-SC, a single-cost formulation for standard offline safe RL, and derive safety-violation and performance-suboptimality bounds that together yield sample-complexity guarantees. We then extend the framework to hierarchical safety requirements with LexiSafe-MC, which supports multiple safety costs and admits its own sample-complexity analysis. Empirically, LexiSafe demonstrates reduced safety violations and improved task performance compared to constrained offline baselines. By unifying lexicographic prioritization with structural bias, LexiSafe offers a practical and theoretically grounded approach for safety-critical CPS decision-making.