An HMDP-MPC Decision-making Framework with Adaptive Safety Margins and Hysteresis for Autonomous Driving

📄 arXiv: 2603.17802v1 📥 PDF

作者: Siyuan Li, Chengyuan Liu, Wen-Hua Chen

分类: eess.SY

发布日期: 2026-03-18

备注: 8 pages, 6 figures, to be published in ICRA 2026 proceedings


💡 一句话要点

提出一种自适应安全裕度和迟滞机制的HMDP-MPC自动驾驶决策框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 自动驾驶 决策规划 模型预测控制 混合马尔可夫决策过程 安全裕度 迟滞机制 交通场景

📋 核心要点

  1. 现有基于MPC的自动驾驶决策方法在复杂交通场景中,难以平衡安全性和平滑性,易出现决策振荡。
  2. 该论文提出了一种结合HMDP和MPC的决策框架,利用自适应安全裕度和迟滞机制来抑制决策振荡,提高安全性。
  3. 实验结果表明,该框架在多种交通场景下具有良好的鲁棒性和适应性,碰撞率仅为0.05%。

📝 摘要(中文)

本文提出了一种统一的决策框架,该框架集成了混合马尔可夫决策过程(HMDP)与模型预测控制(MPC),并结合了速度相关的安全裕度和预测感知的迟滞机制。自我车辆和周围车辆均被建模为HMDP,从而可以在MPC优化中共同考虑离散的动作转换和运动学演化。源自智能驾驶员模型(IDM)的安全裕度能够适应交通环境,但会随速度变化,这可能导致决策振荡和速度波动。为了缓解这个问题,我们提出了一种具有不同触发和释放阈值的冻结-释放迟滞机制,有效地扩大了反应缓冲区并抑制了振荡。通过一个双层恢复方案进一步保障决策的连续性:一个与IDM裕度相关的全局有界松弛和一个确定性的回退策略。通过案例研究、针对无迟滞基线的消融实验以及跨18种交通场景的大规模随机实验对该框架进行了评估。在8,050次试验中,该框架仅实现了0.05%的碰撞率,其中98.77%的决策由标称MPC解决,并且对松弛或回退的依赖性最小。这些结果证明了所提出的决策框架在异构交通条件下的鲁棒性和适应性。

🔬 方法详解

问题定义:自动驾驶车辆在复杂交通环境中进行安全、高效的决策是一个关键问题。现有的基于MPC的决策方法,在处理动态交通环境时,由于安全裕度随速度变化,容易产生决策振荡和速度波动,影响乘坐舒适性和安全性。

核心思路:该论文的核心思路是将车辆建模为HMDP,并将其与MPC相结合,同时引入自适应安全裕度和迟滞机制。HMDP能够描述车辆的离散行为(如变道、跟车)和连续运动学状态,MPC则负责优化控制序列。自适应安全裕度根据交通状况动态调整,而迟滞机制则用于抑制因安全裕度变化引起的决策振荡。

技术框架:该决策框架主要包含以下几个模块:1) 环境建模:将自我车辆和周围车辆建模为HMDP。2) 安全裕度计算:基于IDM模型计算速度相关的安全裕度。3) MPC优化:将HMDP的状态转移和运动学方程作为约束,优化车辆的控制序列。4) 迟滞机制:引入冻结-释放迟滞机制,抑制决策振荡。5) 恢复机制:设计两层恢复机制,保证决策的连续性。

关键创新:该论文的关键创新在于:1) 提出了速度相关的自适应安全裕度,能够更好地适应交通环境。2) 引入了冻结-释放迟滞机制,有效地抑制了决策振荡。3) 设计了双层恢复机制,保证了决策的连续性和安全性。

关键设计:1) 迟滞机制:设置触发阈值和释放阈值,只有当决策变量超过触发阈值时才进行切换,低于释放阈值时保持当前决策。2) 安全裕度:基于IDM模型计算,与车辆速度和周围车辆的相对速度有关。3) 恢复机制:第一层为全局有界松弛,第二层为确定性回退策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过大规模随机实验验证了所提出框架的有效性。在8,050次试验中,碰撞率仅为0.05%,其中98.77%的决策由标称MPC解决,对松弛或回退的依赖性极小。与无迟滞机制的基线相比,该框架能够显著减少决策振荡,提高车辆行驶的平稳性。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的决策规划模块,提高车辆在复杂交通环境下的安全性和舒适性。此外,该框架也可扩展到其他机器人领域,例如无人机、无人船等,用于解决类似的安全决策问题。该研究有助于推动自动驾驶技术的商业化落地。

📄 摘要(原文)

This paper presents a unified decision-making framework that integrates Hybrid Markov Decision Processes (HMDPs) with Model Predictive Control (MPC), augmented by velocity-dependent safety margins and a prediction-aware hysteresis mechanism. Both the ego and surrounding vehicles are modeled as HMDPs, allowing discrete maneuver transition and kinematic evolution to be jointly considered within the MPC optimization. Safety margins derived from the Intelligent Driver Model (IDM) adapt to traffic context but vary with speed, which can cause oscillatory decisions and velocity fluctuations. To mitigate this, we propose a frozen-release hysteresis mechanism with distinct trigger and release thresholds, effectively enlarging the reaction buffer and suppressing oscillations. Decision continuity is further safeguarded by a two-layer recovery scheme: a global bounded relaxation tied to IDM margins and a deterministic fallback policy. The framework is evaluated through a case study, an ablation against a no-hysteresis baseline, and largescale randomized experiments across 18 traffic settings. Across 8,050 trials, it achieves a collision rate of only 0.05%, with 98.77% of decisions resolved by nominal MPC and minimal reliance on relaxation or fallback. These results demonstrate the robustness and adaptability of the proposed decision-making framework in heterogeneous traffic conditions.