Towards Autonomous Railway Operations: A Semi-Hierarchical Deep Reinforcement Learning Approach to the Vehicle Rescheduling Problem
作者: Alberto Castagna, Stefan Zahlner, Adrian Egli, Christian Eichenberger, Daniel Boos, Manuel Meyer, Anton Fuxjager
分类: cs.AI
发布日期: 2026-05-11
💡 一句话要点
提出半层级深度强化学习方法,以解决复杂铁路网中的车辆重调度问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 多智能体系统 铁路调度 分层强化学习 组合优化 智能交通系统
📋 核心要点
- 现有运筹学方法在处理大规模铁路网的实时调度时,因组合爆炸问题难以实现高效求解,且过度依赖人工经验。
- 论文提出半层级强化学习架构,通过解耦调度与路径规划,针对性地优化不同决策范围,平衡了稀疏调度与频繁路径更新。
- 实验表明该方法在Flatland模拟器中显著提升了列车到达率,在复杂拥堵场景下表现出极高的鲁棒性,死锁率保持在5%以下。
📝 摘要(中文)
铁路交通管理中的中断处理是一项重大挑战。随着交通密度增加和基础设施限制,车辆路径与调度问题(VRSP)的实时求解难度呈指数级增长。尽管运筹学(OR)方法应用广泛,但由于组合复杂性,调度仍高度依赖人工经验。强化学习(RL)在多智能体协调方面展现出潜力,但现有方法在密集铁路网中往往表现不佳且难以扩展。本文从机器学习视角出发,提出了一种针对铁路运行约束的半层级强化学习架构。该方法通过专门的动作和观测空间将调度与路径规划分离,使策略能够专注于不同的决策范围,并解决了稀疏调度决策与频繁路径更新之间的不平衡问题。在Flatland-RL模拟器中,通过5个难度等级和50个随机种子(7至80列火车)进行评估。结果表明,与启发式基线和单体RL相比,该方法显著提升了协调能力、资源利用率和鲁棒性,在重度拥堵下能自适应地进行排序、延迟或取消列车,使到达目的地的列车数量近乎翻倍,同时将死锁率控制在5%以下。
🔬 方法详解
问题定义:论文旨在解决铁路交通管理中的车辆重调度问题(VRSP)。现有方法在面对高密度铁路网时,因组合复杂性导致计算耗时过长,且单体强化学习模型难以处理调度决策(宏观)与路径规划(微观)之间的时空尺度差异。
核心思路:采用半层级强化学习(Semi-Hierarchical RL)策略。通过将决策过程拆分为调度层(Dispatching)和路径层(Routing),使模型能够分别处理长期的序列规划和短期的避障与移动,从而降低策略学习的难度。
技术框架:系统架构包含两个主要模块:调度代理负责决定列车的优先级和停靠策略,路径代理负责具体的轨道选择和移动指令。两者通过独立的动作空间和观测空间进行交互,实现了决策逻辑的解耦。
关键创新:最重要的创新在于引入了“半层级”机制,专门针对铁路运行中调度决策稀疏、路径更新频繁的特性进行建模,有效缓解了多智能体系统中的信用分配问题。
关键设计:设计了针对铁路约束的特定观测空间,能够捕捉局部轨道状态与全局网络拥堵信息。通过分层奖励函数引导智能体在保证死锁率低于5%的前提下,最大化列车准点率与资源利用率。
🖼️ 关键图片
📊 实验亮点
在Flatland-RL模拟器中,该方法在多达80列火车的复杂场景下,使到达目的地的列车数量较基线方法提升近一倍。在处理高密度交通流时,该模型展现出极强的鲁棒性,在保持死锁率低于5%的同时,能够自适应地执行列车排序、延迟或取消等复杂调度策略。
🎯 应用场景
该研究可直接应用于铁路调度指挥系统,辅助调度员进行实时交通流优化。在自动驾驶列车控制、城市轨道交通管理及物流网络调度领域具有极高的实际价值,有助于提升铁路网络的整体吞吐量,降低因突发中断导致的运营成本。
📄 摘要(原文)
Managing disruptions in railway traffic management is a major challenge. Rising traffic density and infrastructure limits increase complexity, making the Vehicle Routing and Scheduling Problem (VRSP) difficult to solve reliably and in real time. While Operational Research (OR) methods are widely used, most dispatching still relies on human expertise due to the problem's exponential combinatorial complexity. Reinforcement Learning (RL) has gained attention for its potential in multi-agent coordination, but existing RL approaches often underperform OR methods and struggle to scale in dense rail networks. This paper addresses this gap from a machine learning perspective by introducing a semi-hierarchical RL formulation tailored to operational railway constraints. The method separates dispatching from routing through dedicated action and observation spaces, enabling policies to specialise in distinct decision scopes and addressing the imbalance between rare dispatch decisions and frequent routing updates. The approach is evaluated on the Flatland-RL simulator across five difficulty levels and 50 random seeds, with 7 to 80 trains. Results show substantially improved coordination, resource utilisation, and robustness compared with heuristic baselines and monolithic RL, nearly doubling the number of trains reaching their destinations, while keeping deadlock rates below 5% and adaptively sequencing, delaying, or cancelling trains under heavy congestion.