Safe Urban Traffic Control via Uncertainty-Aware Conformal Prediction and World-Model Reinforcement Learning

📄 arXiv: 2602.04821v1 📥 PDF

作者: Joydeep Chandra, Satyam Kumar Navneet, Aleksandr Algazinov, Yong Zhang

分类: cs.LG, cs.AI

发布日期: 2026-02-04


💡 一句话要点

提出STREAM-RL框架,通过不确定性感知的共形预测和世界模型强化学习实现安全城市交通控制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 城市交通控制 共形预测 世界模型 强化学习 不确定性量化 异常检测 安全控制

📋 核心要点

  1. 现有城市交通管理系统在预测精度、异常检测和安全控制方面存在不足,难以提供可靠性保证。
  2. STREAM-RL框架通过不确定性感知的共形预测和世界模型强化学习,实现了对未来交通状况的安全控制。
  3. 实验结果表明,STREAM-RL在覆盖效率、FDR控制和安全率方面均优于现有方法,且推理延迟较低。

📝 摘要(中文)

城市交通管理需要能够同时预测未来状况、检测异常并采取安全纠正措施的系统,同时提供可靠性保证。本文提出了一个统一的框架STREAM-RL,它引入了三个新的算法贡献:(1)PU-GAT+,一种不确定性引导的自适应共形预测器,它使用预测不确定性通过置信度单调注意力动态地重新加权图注意力,实现无分布覆盖保证;(2)CRFN-BY,一种共形残差流网络,它通过具有Benjamini-Yekutieli FDR控制的归一化流来建模不确定性归一化的残差,在任意依赖下;(3)LyCon-WRL+,一种具有Lyapunov稳定性证书、经过认证的Lipschitz边界和不确定性传播的想象rollout的不确定性引导的安全世界模型强化学习代理。据我们所知,这是第一个通过异常检测将校准的不确定性从预测传播到具有端到端理论保证的安全策略学习的框架。在多个真实世界交通轨迹数据上的实验表明,STREAM-RL实现了91.4%的覆盖效率,在经过验证的依赖下将FDR控制在4.1%,并将安全率提高到95.2%,而标准PPO为69%,同时实现了更高的奖励,端到端推理延迟为23ms。

🔬 方法详解

问题定义:论文旨在解决城市交通控制中预测不确定性、异常检测和安全策略学习三个关键问题。现有方法通常缺乏对预测不确定性的有效建模,导致异常检测的误报率较高,并且难以保证控制策略的安全性。此外,现有方法往往缺乏端到端的理论保证。

核心思路:论文的核心思路是利用共形预测(Conformal Prediction)来量化预测的不确定性,并将其传递到异常检测和强化学习过程中,从而实现更安全、更可靠的交通控制。通过对不确定性的建模和传播,可以更准确地识别异常情况,并设计出能够应对不确定性的安全策略。

技术框架:STREAM-RL框架包含三个主要模块:PU-GAT+(不确定性引导的自适应共形预测器)、CRFN-BY(共形残差流网络)和LyCon-WRL+(不确定性引导的安全世界模型强化学习代理)。PU-GAT+负责预测未来交通状况并量化预测的不确定性;CRFN-BY利用共形预测进行异常检测;LyCon-WRL+则基于世界模型进行强化学习,并利用Lyapunov稳定性理论保证控制策略的安全性。

关键创新:该论文的关键创新在于将共形预测与世界模型强化学习相结合,实现了一个端到端的安全交通控制框架。PU-GAT+通过置信度单调注意力动态地重新加权图注意力,提高了预测精度和不确定性估计的准确性。CRFN-BY利用归一化流建模不确定性归一化的残差,提高了异常检测的性能。LyCon-WRL+则利用Lyapunov稳定性理论保证了控制策略的安全性。

关键设计:PU-GAT+的关键设计在于使用confidence-monotonic attention机制,根据预测的不确定性动态调整图注意力的权重。CRFN-BY的关键设计在于使用Benjamini-Yekutieli FDR控制来控制异常检测的误报率。LyCon-WRL+的关键设计在于使用Lyapunov函数来保证控制策略的稳定性,并使用uncertainty-propagated imagination rollouts来提高策略的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,STREAM-RL在多个真实世界交通轨迹数据集上取得了显著的性能提升。STREAM-RL实现了91.4%的覆盖效率,在经过验证的依赖下将FDR控制在4.1%,并将安全率提高到95.2%,而标准PPO为69%,同时实现了更高的奖励,端到端推理延迟为23ms。这些结果表明,STREAM-RL在预测精度、异常检测和安全控制方面均优于现有方法。

🎯 应用场景

该研究成果可应用于智能交通管理系统,提升城市交通的安全性、效率和可靠性。通过准确预测交通状况、及时检测异常事件和采取安全控制措施,可以有效减少交通事故、缓解交通拥堵,并提高交通系统的整体性能。该研究还可扩展到其他安全关键型领域,如自动驾驶、机器人控制等。

📄 摘要(原文)

Urban traffic management demands systems that simultaneously predict future conditions, detect anomalies, and take safe corrective actions -- all while providing reliability guarantees. We present STREAM-RL, a unified framework that introduces three novel algorithmic contributions: (1) PU-GAT+, an Uncertainty-Guided Adaptive Conformal Forecaster that uses prediction uncertainty to dynamically reweight graph attention via confidence-monotonic attention, achieving distribution-free coverage guarantees; (2) CRFN-BY, a Conformal Residual Flow Network that models uncertainty-normalized residuals via normalizing flows with Benjamini-Yekutieli FDR control under arbitrary dependence; and (3) LyCon-WRL+, an Uncertainty-Guided Safe World-Model RL agent with Lyapunov stability certificates, certified Lipschitz bounds, and uncertainty-propagated imagination rollouts. To our knowledge, this is the first framework to propagate calibrated uncertainty from forecasting through anomaly detection to safe policy learning with end-to-end theoretical guarantees. Experiments on multiple real-world traffic trajectory data demonstrate that STREAM-RL achieves 91.4\% coverage efficiency, controls FDR at 4.1\% under verified dependence, and improves safety rate to 95.2\% compared to 69\% for standard PPO while achieving higher reward, with 23ms end-to-end inference latency.