Modeling Vehicle-Type-Specific Pedestrian Crash Avoidance Behavior in Safety-Critical Interactions Using Smooth-Mamba Deep Reinforcement Learning

作者: Qingwen Pu, Kun Xie, Hong Yang, Di Yang, Junqing Wang

分类: cs.AI

发布日期: 2026-05-27

备注: 37 page. 15 Figure, 9 table

💡 一句话要点

提出SMamba-DDPG框架，建模自动驾驶和人类驾驶车辆下行人避撞行为差异

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 行人行为建模 自动驾驶 强化学习 Mamba 避撞 人机交互 交通仿真

📋 核心要点

现有方法难以区分自动驾驶车辆和人类驾驶车辆对行人行为的影响，限制了混合交通场景下自动驾驶系统的安全性。
提出SMamba-DDPG框架，利用平滑动作约束和Mamba结构进行高效时序建模，分别学习AV和HDV场景下的行人避撞策略。
实验表明，SMamba-DDPG能更真实地重现行人避撞行为，并揭示行人对AV反应更快、过马路速度更慢等行为差异。

📝 摘要（中文）

本研究从Argoverse 2数据集中提取了安全关键的行人-车辆交互场景，旨在捕捉真实世界中自动驾驶车辆（AVs）和人类驾驶车辆（HDVs）场景下行人不同的避撞行为。为了建模这种车辆类型特定的行人避撞行为，我们开发了一个名为SMamba-DDPG的平滑Mamba深度确定性策略梯度框架，该框架集成了平滑动作约束和高效的时间表示学习。为了量化行人行为差异，该框架训练了针对AVs和HDVs场景下行人交互的独立避撞策略。结果表明，SMamba-DDPG在重现行人避撞行为方面优于基线强化学习和监督学习模型。重建的轨迹表现出强大的行为真实性，准确地重现了AV和HDV场景中的避撞运动学。反应时间分析表明，该模型捕捉到了类似人类的反应延迟，并揭示出行人对AVs的反应比对HDVs更快。反事实分析进一步表明，行人在与AVs交互时采用较低的过马路速度。对模型生成数据的大规模安全分析表明，与行人-HDV交互相比，行人-AV交互始终产生较低的冲突率和较高的行人让行率。研究结果强调了结合车辆类型特定的行人行为模型对于更安全的自动驾驶系统设计以及混合交通环境中更真实的交通模拟的重要性。

🔬 方法详解

问题定义：论文旨在解决在混合交通环境中，自动驾驶车辆（AV）与人类驾驶车辆（HDV）对行人避撞行为产生不同影响的问题。现有方法通常忽略这种差异，导致自动驾驶系统在设计时无法充分考虑行人对不同类型车辆的反应，从而影响安全性。此外，现有方法在建模行人行为时，难以有效捕捉时序依赖关系和动作的平滑性。

核心思路：论文的核心思路是分别建模行人在与AV和HDV交互时的避撞策略，从而捕捉行人对不同类型车辆的差异化反应。通过强化学习训练两个独立的策略网络，分别针对AV和HDV场景优化行人的行为。同时，引入平滑动作约束，确保生成的行人轨迹更加自然合理。使用Mamba结构进行时序建模，提高模型的效率和性能。

技术框架：SMamba-DDPG框架主要包含以下几个模块：1) 环境交互模块：从Argoverse 2数据集中提取行人-车辆交互场景，作为强化学习的环境。2) 策略网络：使用Mamba结构构建深度确定性策略网络，分别学习AV和HDV场景下的行人策略。3) 价值网络：评估策略的优劣，用于指导策略网络的更新。4) 平滑动作约束：通过添加惩罚项，约束策略输出的动作序列的平滑性。5) 训练模块：使用DDPG算法训练策略网络和价值网络。

关键创新：论文最重要的技术创新点在于：1) 提出SMamba-DDPG框架，将Mamba结构引入行人行为建模，提高了时序建模的效率和性能。2) 针对AV和HDV场景分别训练行人策略，捕捉了行人对不同类型车辆的差异化反应。3) 引入平滑动作约束，确保生成的行人轨迹更加自然合理。与现有方法相比，该方法能够更真实地模拟行人行为，并为自动驾驶系统设计提供更准确的行人模型。

关键设计：1) Mamba结构：使用选择机制来关注重要的时间步，提高模型的效率。2) 平滑动作约束：通过添加L2正则化项到损失函数中，惩罚相邻时间步动作的差异。3) 奖励函数：综合考虑行人的安全性、舒适性和目标达成情况，设计合理的奖励函数。4) 网络结构：策略网络和价值网络均采用多层感知机结构，并使用ReLU激活函数。

📊 实验亮点

实验结果表明，SMamba-DDPG在重现行人避撞行为方面优于基线强化学习和监督学习模型。重建的轨迹具有很高的真实性，能够准确地重现AV和HDV场景中的避撞运动学。反应时间分析表明，行人对AV的反应速度快于HDV。反事实分析表明，行人在与AV交互时会降低过马路速度。大规模安全分析表明，行人-AV交互的冲突率低于行人-HDV交互。

🎯 应用场景

该研究成果可应用于自动驾驶系统的行为预测模块，提高自动驾驶车辆在混合交通环境中的安全性。此外，该模型可用于交通仿真软件，生成更真实的行人行为，从而更准确地评估交通系统的性能。该研究还有助于理解行人对不同类型车辆的反应差异，为自动驾驶车辆的人机交互设计提供指导。

📄 摘要（原文）

As automated vehicles (AVs) increasingly share roadways with human-driven vehicles (HDVs), understanding how pedestrians respond to different vehicle types in safety-critical interactions is essential for the safe deployment of automated driving technologies. This study extracts safety-critical pedestrian-vehicle interactions from the Argoverse 2 dataset to capture real-world crash avoidance behaviors in encounters involving AVs and HDVs. To model vehicle-type-specific pedestrian crash avoidance behavior, we develop a Smooth-Mamba Deep Deterministic Policy Gradient framework, termed SMamba-DDPG, which integrates smooth action constraints with efficient temporal representation learning. To quantify pedestrian behavioral differences, the framework trains separate crash avoidance policies for pedestrian interactions with AVs and HDVs. Results show that SMamba-DDPG outperforms baseline reinforcement learning and supervised learning models in reproducing pedestrian crash avoidance behaviors. Reconstructed trajectories demonstrate strong behavioral realism, accurately reproducing crash avoidance kinematics in both AV and HDV scenarios. Reaction time analysis shows that the model captures human-like response delays and reveals that pedestrians respond more quickly to AVs than to HDVs. Counterfactual analysis further indicates that pedestrians adopt lower crossing speeds when interacting with AVs. Large-scale safety analysis of model-generated data revealed that pedestrian-AV interactions consistently yielded lower conflict rates and higher pedestrian yielding rates compared to pedestrian-HDV interactions. The findings highlight the importance of incorporating vehicle-type-specific pedestrian behavioral models for safer automated driving system design and more realistic traffic simulations in mixed-traffic environments.

Modeling Vehicle-Type-Specific Pedestrian Crash Avoidance Behavior in Safety-Critical Interactions Using Smooth-Mamba Deep Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理