parallelcbf: A composable safety-filter and auditability framework for tensor-parallel reinforcement learning
作者: Yijun Lu, Zilei Yang, Yuyin Ma
分类: cs.LG, cs.RO
发布日期: 2026-05-15
🔗 代码/项目: GITHUB
💡 一句话要点
ParallelCBF:用于张量并行强化学习的可组合安全过滤器与可审计性框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 安全约束 控制屏障函数 可审计性 并行训练 机器人 无人机 行为克隆
📋 核心要点
- 现有框架缺乏统一性,无法同时支持大规模并行无人机模拟、安全约束强化学习基准和控制屏障函数综合工具。
- ParallelCBF框架统一了张量并行环境、CBF安全过滤器、分片BC-to-RL流程和一流的可操作审计性,提供可组合的API。
- 该框架通过审计层阻止了不满足收敛标准的训练阶段,避免了错误传播,提升了机器人研究的可复现性。
📝 摘要(中文)
ParallelCBF是首个统一张量并行无人机环境、硬门限控制屏障函数(CBF)安全过滤器、分片行为克隆到强化学习(BC-to-RL)流程以及一流的操作可审计性的框架。该框架通过可组合的API提供预注册、监控注册表、故障取证和数据集审计功能,而非用户实现的脚本。ParallelCBF v0.1.0在Apache 2.0许可下发布,包含一个四层可组合API、一个双屏障(平方/线性预测)CBF的CPU PyTorch参考实现、跨向量化批大小的基于属性的安全不变性测试(完整39项测试套件在1.67秒内完成),以及一个包含31415个episode的行为克隆数据集收集活动,其课程混合、每个桶的产量和数据集SHA-256均可通过框架自身的ops原语进行审计。框架的可审计性层阻止了未满足预注册收敛标准的下游训练阶段,避免了降级检查点的静默传播,这对于可复现的机器人经验研究至关重要。
🔬 方法详解
问题定义:现有强化学习框架在安全约束和可审计性方面存在不足,尤其是在大规模并行训练场景下,缺乏统一的工具链来保证训练过程的安全性和可追溯性。现有方法通常需要用户自行编写脚本来实现安全过滤和审计功能,增加了开发和维护成本,并且容易出错。
核心思路:ParallelCBF的核心思路是将安全约束和可审计性作为强化学习训练流程中的一等公民,通过可组合的API提供安全过滤和审计功能。利用控制屏障函数(CBF)作为安全过滤器,确保智能体在训练和部署过程中满足安全约束。同时,通过预注册、监控注册表、故障取证和数据集审计等机制,实现对训练过程的全面监控和可追溯性。
技术框架:ParallelCBF框架采用四层可组合API架构,包括:1) 张量并行环境层,支持大规模并行无人机模拟;2) CBF安全过滤器层,提供硬门限安全过滤;3) 分片BC-to-RL流程层,支持行为克隆到强化学习的训练流程;4) 操作可审计性层,提供预注册、监控注册表、故障取证和数据集审计等功能。该框架提供了一个双屏障(平方/线性预测)CBF的CPU PyTorch参考实现。
关键创新:ParallelCBF的关键创新在于将安全约束和可审计性集成到强化学习框架中,并提供可组合的API。这使得用户可以方便地构建安全可靠的强化学习系统,并对训练过程进行全面监控和审计。此外,该框架还提供了一套基于属性的安全不变性测试,用于验证安全过滤器的正确性。
关键设计:ParallelCBF使用控制屏障函数(CBF)作为安全过滤器。CBF的设计需要考虑状态空间、控制输入和安全约束。该框架提供了一个双屏障CBF的参考实现,包括平方屏障和线性预测屏障。此外,该框架还提供了一套操作原语,用于实现预注册、监控注册表、故障取证和数据集审计等功能。这些操作原语可以方便地组合成复杂的审计流程。
🖼️ 关键图片
📊 实验亮点
ParallelCBF框架的安全不变性测试套件在1.67秒内完成,验证了安全过滤器的正确性。通过行为克隆收集了包含31415个episode的数据集,并通过框架自身的可审计性功能验证了数据集的质量。框架成功阻止了未满足收敛标准的下游训练阶段,避免了降级检查点的传播。
🎯 应用场景
ParallelCBF可应用于各种安全攸关的强化学习任务,如自动驾驶、机器人控制、金融交易等。该框架可以帮助开发者构建安全可靠的智能体,并对训练过程进行全面监控和审计,从而提高系统的安全性和可靠性。此外,该框架还可以促进机器人经验研究的可复现性。
📄 摘要(原文)
While Isaac Lab provides massive parallel UAV simulation, OmniSafe and safe-control-gym provide constrained-RL benchmarks, and CBFKit provides control-barrier-function synthesis tooling, no existing framework unifies these capabilities for end-to-end safety-constrained training. ParallelCBF is the first framework to unify (i)~tensor-parallel UAV environments, (ii)~hard-gate CBF safety filters, (iii)~sharded BC-to-RL pipelines, and (iv)~first-class operational auditability -- pre-registration, watchdog registries, failure forensics, and dataset audits as composable APIs rather than user-implemented scripts. We release ParallelCBF v0.1.0 under Apache~2.0 with a four-layer composable API, a CPU PyTorch reference implementation of a dual-barrier (squared / linear-predictive) CBF, property-based safety invariance tests across vectorized batch sizes that complete in 1.67~s for the full 39-test suite, and a 31{,}415-episode behavior-cloning collection campaign whose curriculum mix, per-bucket yields, and dataset SHA-256 are auditable through the framework's own \texttt{ops} primitives. We report a representative end-to-end pipeline execution in which the framework's auditability layer halted a downstream training stage that did not meet pre-registered convergence criteria, preventing silent propagation of a degraded checkpoint -- an architectural property we argue is necessary, not merely useful, for reproducible empirical robotics research. The framework is installable via \texttt{pip install parallelcbf}; source and release artifacts are available at https://github.com/xiaoyang-123-cell/ParallelCBF.