Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Decision-Making in Dynamic Environment

📄 arXiv: 2407.08932v2 📥 PDF

作者: Jayabrata Chowdhury, Venkataramanan Shivaraman, Sumit Dangi, Suresh Sundaram, P. B. Sujit

分类: cs.AI, cs.RO

发布日期: 2024-07-12 (更新: 2024-09-28)

备注: 6 pages, 3 figures


💡 一句话要点

提出基于深度注意力驱动强化学习的DAD-RL框架,用于动态环境中自动驾驶车辆的决策。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 自动驾驶 强化学习 注意力机制 时空编码 自主决策

📋 核心要点

  1. 城市环境中自动驾驶车辆与周围车辆的动态交互给决策带来挑战,现有方法计算复杂度高。
  2. DAD-RL框架通过时空注意力编码动态分配周围车辆的重要性,并结合上下文信息进行决策。
  3. 在SMARTS基准测试中,DAD-RL优于现有方法,消融实验验证了各模块的重要性。

📝 摘要(中文)

本文提出了一种名为深度注意力驱动强化学习(DAD-RL)的框架,用于解决城市环境中自动驾驶车辆(AV)的决策问题。该框架通过动态地分配周围车辆的重要性,并将其融入到自动驾驶车辆的强化学习决策过程中,从而实现安全规划。为了学习动态交互,引入了一种以自动驾驶车辆为中心的时空注意力编码(STAE)机制。同时,利用上下文编码器提取地图和路线的上下文特征。时空表示与上下文编码相结合,提供了全面的状态表示。该模型使用软演员-评论家(SAC)算法进行训练。在没有交通信号灯的SMARTS城市基准场景中,评估结果表明DAD-RL优于最新的方法。消融研究也强调了上下文编码器和时空注意力编码器在实现卓越性能方面的重要性。

🔬 方法详解

问题定义:自动驾驶车辆在动态城市环境中面临复杂决策问题,需要理解周围车辆的时空交互关系。现有方法,如基于Transformer的架构,虽然能够编码交互信息,但计算复杂度过高,难以满足实时性要求。因此,需要一种既能有效理解时空交互,又能降低计算复杂度的决策方法。

核心思路:DAD-RL的核心思路是利用深度注意力机制动态地评估周围车辆对自动驾驶车辆决策的重要性,并将这些重要性信息融入到强化学习的决策过程中。通过这种方式,模型可以更加关注与自身决策相关的车辆,从而提高决策效率和安全性。同时,结合上下文信息,进一步提升对环境的理解。

技术框架:DAD-RL框架主要包含以下几个模块:1) 时空注意力编码器(STAE):用于学习自动驾驶车辆与周围车辆之间的动态时空交互关系。2) 上下文编码器:用于提取地图和路线的上下文特征。3) 状态表示:将时空表示与上下文编码相结合,形成全面的状态表示。4) 强化学习决策器:使用软演员-评论家(SAC)算法,基于状态表示进行决策。整体流程是:首先,通过STAE和上下文编码器提取环境特征,然后将这些特征作为状态输入到SAC算法中,最终输出自动驾驶车辆的动作。

关键创新:DAD-RL的关键创新在于提出了自动驾驶车辆为中心的时空注意力编码(STAE)机制。与传统的注意力机制不同,STAE更加关注自动驾驶车辆与周围车辆之间的时空关系,能够更有效地学习动态交互。此外,DAD-RL将注意力机制与强化学习相结合,实现了端到端的决策优化。

关键设计:STAE的设计是关键。具体来说,STAE可能包含以下技术细节:1) 使用卷积神经网络提取车辆的时空特征。2) 使用注意力机制计算周围车辆对自动驾驶车辆的重要性权重。3) 使用加权平均或类似方法将周围车辆的特征融合到自动驾驶车辆的状态表示中。上下文编码器可能使用卷积神经网络或循环神经网络提取地图和路线的特征。SAC算法使用深度神经网络作为演员和评论家,损失函数包括奖励函数、熵正则化项等。具体的网络结构和参数设置需要在论文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DAD-RL在SMARTS城市基准测试中表现出色,超越了现有先进方法。消融研究表明,时空注意力编码器和上下文编码器对性能提升至关重要。具体性能数据(例如成功率、平均速度、碰撞次数等)需要在论文中查找,但摘要已明确指出DAD-RL优于现有方法。

🎯 应用场景

DAD-RL框架可应用于自动驾驶、机器人导航等领域,尤其适用于城市复杂交通环境下的自主决策。该研究有助于提升自动驾驶车辆的安全性、效率和适应性,降低交通事故风险,并推动智能交通系统的发展。未来,该框架可扩展到更复杂的场景,例如包含行人、交通信号灯等元素的混合交通环境。

📄 摘要(原文)

Autonomous Vehicle (AV) decision making in urban environments is inherently challenging due to the dynamic interactions with surrounding vehicles. For safe planning, AV must understand the weightage of various spatiotemporal interactions in a scene. Contemporary works use colossal transformer architectures to encode interactions mainly for trajectory prediction, resulting in increased computational complexity. To address this issue without compromising spatiotemporal understanding and performance, we propose the simple Deep Attention Driven Reinforcement Learning (DADRL) framework, which dynamically assigns and incorporates the significance of surrounding vehicles into the ego's RL driven decision making process. We introduce an AV centric spatiotemporal attention encoding (STAE) mechanism for learning the dynamic interactions with different surrounding vehicles. To understand map and route context, we employ a context encoder to extract features from context maps. The spatiotemporal representations combined with contextual encoding provide a comprehensive state representation. The resulting model is trained using the Soft Actor Critic (SAC) algorithm. We evaluate the proposed framework on the SMARTS urban benchmarking scenarios without traffic signals to demonstrate that DADRL outperforms recent state of the art methods. Furthermore, an ablation study underscores the importance of the context-encoder and spatio temporal attention encoder in achieving superior performance.