DeCoR: Design and Control Co-Optimization for Urban Streets Using Reinforcement Learning

📄 arXiv: 2605.21311v1 📥 PDF

作者: Bibek Poudel, Lei Zhu, Kevin Heaslip, Sai Swaminathan, Weizi Li

分类: cs.LG, cs.AI

发布日期: 2026-05-20

备注: 22 pages, 8 figures


💡 一句话要点

DeCoR:基于强化学习的城市街道设计与控制协同优化

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 城市交通 协同优化 人行横道设计 信号控制

📋 核心要点

  1. 现有城市设计方法难以有效利用大规模交通感知数据,导致设计与控制策略脱节,效率低下。
  2. DeCoR通过两阶段强化学习框架,协同优化人行横道布局和信号控制,实现行人与车辆的整体效率提升。
  3. 实验表明,DeCoR在真实城市环境中显著减少了行人等待时间,并展现了对不同交通需求和布局变化的鲁棒性。

📝 摘要(中文)

现代视觉系统能够大规模地检测、跟踪和预测城市中的交通参与者,但将感知输出转化为城市设计仍然有限。本文提出了DeCoR,一个两阶段强化学习框架,利用交通流量观测来协同优化人行横道布局和网络级信号控制。在设计阶段,DeCoR将行人网络编码为图,并学习一个生成策略,该策略参数化人行横道位置和宽度的混合高斯模型,从中采样新的横道。对于每个布局,共享的控制策略学习自适应信号配时,以最小化行人和车辆的联合延误。在一个750米的真实城市走廊上,利用视频和Wi-Fi日志感知的需求,DeCoR学习到的布局将行人到达最近人行横道的时间减少了23%,同时使用比现有配置更少的人行横道。在控制方面,相对于固定时间信号控制,DeCoR将行人和车辆的等待时间分别减少了79%和65%。此外,控制策略可以推广到训练之外的需求,并且对布局变化具有鲁棒性,无需重新训练。

🔬 方法详解

问题定义:现有城市街道设计和交通信号控制通常是独立进行的,缺乏协同优化。传统方法难以有效利用现代视觉系统提供的丰富交通流信息,导致行人过街不便、车辆拥堵等问题。现有方法的痛点在于无法根据实时交通状况动态调整设计和控制策略,难以适应复杂多变的城市环境。

核心思路:DeCoR的核心思路是将城市街道设计(人行横道布局)和交通信号控制视为一个协同优化问题,并利用强化学习方法寻找最优解。通过两阶段的强化学习,首先优化人行横道布局,然后针对该布局优化信号控制,从而实现整体效率的提升。这种协同优化能够更好地平衡行人和车辆的需求,提高城市交通系统的效率。

技术框架:DeCoR框架包含两个主要阶段:设计阶段和控制阶段。在设计阶段,行人网络被编码为一个图,并使用强化学习训练一个生成策略,该策略参数化人行横道的位置和宽度。在控制阶段,对于每个布局,使用另一个强化学习策略学习自适应信号配时,以最小化行人和车辆的联合延误。这两个阶段共享一些底层特征提取模块,以提高学习效率。

关键创新:DeCoR的关键创新在于将城市街道设计和交通信号控制问题建模为一个协同优化问题,并提出了一种两阶段强化学习框架来解决该问题。与传统方法相比,DeCoR能够根据实时交通状况动态调整设计和控制策略,从而更好地适应复杂多变的城市环境。此外,DeCoR的控制策略具有良好的泛化能力和鲁棒性。

关键设计:在设计阶段,使用高斯混合模型对人行横道的位置和宽度进行建模,并使用强化学习训练一个生成策略来采样新的横道。在控制阶段,使用深度Q网络(DQN)学习自适应信号配时。损失函数设计为行人和车辆的联合延误,目标是最小化总延误。网络结构采用卷积神经网络提取交通流特征,并使用循环神经网络处理时间序列数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在真实城市走廊的实验中,DeCoR将行人到达最近人行横道的时间减少了23%,同时减少了人行横道数量。在信号控制方面,DeCoR相对于固定时间信号控制,将行人和车辆的等待时间分别减少了79%和65%。控制策略在训练之外的需求下表现出良好的泛化能力,并且对布局变化具有鲁棒性,无需重新训练。

🎯 应用场景

DeCoR可应用于智慧城市建设,优化城市交通规划和管理。通过部署该系统,可以提升城市交通效率,减少拥堵,改善行人过街体验,并降低交通事故风险。该研究成果对于提升城市可持续发展能力具有重要意义,并可推广至其他交通场景,如高速公路匝道控制、公交线路优化等。

📄 摘要(原文)

Modern vision systems can detect, track, and forecast urban actors at scale, yet translating perception outputs to urban design remains limited. We introduce DeCoR, a two-stage reinforcement learning framework that leverages flow observations to co-optimize crosswalk layout and network-level signal control. The design stage encodes the pedestrian network as a graph and learns a generative policy that parameterizes a Gaussian mixture model over crosswalk location and width, from which new crosswalks are sampled. For each layout, a shared control policy learns adaptive signal timings to minimize joint pedestrian and vehicle delay. On a 750 m real-world urban corridor with demand sensed from video and Wi-Fi logs, DeCoR learns a layout that reduces pedestrian arrival time to their nearest crosswalk by 23% while using fewer crosswalks than existing configurations. On the control side, DeCoR reduces pedestrian and vehicle wait time by 79% and 65%, respectively, relative to fixed-time signalization. Further, the control policy generalizes to demands outside of training and is robust to layout changes without retraining.