An Uncertainty-Weighted Decision Transformer for Navigation in Dense, Complex Driving Scenarios

📄 arXiv: 2509.13132v1 📥 PDF

作者: Zhihao Zhang, Chengyang Peng, Minghao Zhu, Ekim Yurtsever, Keith A. Redmill

分类: cs.RO, cs.AI

发布日期: 2025-09-16


💡 一句话要点

提出不确定性加权决策Transformer,提升复杂交通场景自动驾驶决策安全性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 决策Transformer 不确定性加权 环岛导航 鸟瞰图 序列建模 强化学习

📋 核心要点

  1. 现有自动驾驶决策系统难以兼顾空间结构、长时序依赖和不确定性,尤其是在复杂动态环境中。
  2. 论文提出不确定性加权决策Transformer(UWDT),利用预测熵作为权重,提升模型对高风险状态的学习能力。
  3. 实验表明,UWDT在环岛模拟器中,显著降低了碰撞率,提高了奖励和行为稳定性,优于其他基线方法。

📝 摘要(中文)

本文提出了一种新颖的框架,将多通道鸟瞰图占用栅格与基于Transformer的序列建模相结合,用于复杂环岛场景中的战术驾驶。为了解决频繁的低风险状态和罕见的安全关键决策之间的不平衡问题,我们提出了不确定性加权决策Transformer(UWDT)。UWDT采用一个冻结的教师Transformer来估计每个token的预测熵,然后将其用作学生模型损失函数中的权重。这种机制增强了对不确定、高影响状态的学习,同时保持了常见低风险转换的稳定性。在不同交通密度的环岛模拟器中进行的实验表明,UWDT在奖励、碰撞率和行为稳定性方面始终优于其他基线。结果表明,不确定性感知的时空Transformer可以为复杂交通环境中的自动驾驶提供更安全、更高效的决策。

🔬 方法详解

问题定义:论文旨在解决复杂、高密度交通场景下自动驾驶车辆的决策问题,尤其是在环岛等场景中。现有方法难以有效平衡常见低风险状态和罕见但关键的安全决策,导致模型在关键时刻表现不佳。现有方法通常无法有效利用空间结构和长时序依赖关系,并且对不确定性缺乏鲁棒性。

核心思路:论文的核心思路是利用Transformer模型捕捉长时序依赖关系,并引入不确定性加权机制,使模型更加关注高风险、不确定性高的状态。通过对每个token的预测熵进行估计,并将其作为损失函数的权重,从而增强模型对这些关键状态的学习能力。这样设计的目的是提高模型在复杂交通场景下的安全性和决策效率。

技术框架:整体框架包括以下几个主要模块:1) 多通道鸟瞰图(BEV)占用栅格输入,用于表示周围环境;2) 基于Transformer的序列建模,用于捕捉长时序依赖关系;3) 冻结的教师Transformer,用于估计每个token的预测熵;4) 不确定性加权损失函数,用于训练学生模型。流程是:首先,将BEV输入Transformer模型,然后使用教师模型估计预测熵,最后使用加权损失函数训练学生模型。

关键创新:最重要的技术创新点是不确定性加权机制。与传统的决策Transformer不同,UWDT引入了预测熵作为权重,使得模型能够更加关注不确定性高的状态。这种方法能够有效地平衡低风险状态和高风险状态之间的学习,从而提高模型的整体性能。

关键设计:关键设计包括:1) 使用交叉熵损失函数,并根据教师模型预测的熵值进行加权;2) 教师Transformer模型被冻结,只用于提供熵估计,不参与学生模型的训练;3) 使用多通道BEV作为输入,以提供丰富的环境信息;4) Transformer模型的具体结构(层数、注意力头数等)需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UWDT在环岛模拟器中,相较于其他基线方法,显著降低了碰撞率,提高了奖励和行为稳定性。具体而言,UWDT在不同交通密度下均表现出更低的碰撞率,并且能够更有效地完成环岛导航任务。这些结果验证了不确定性加权机制的有效性。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在城市复杂交通环境中的车辆决策控制。通过提高自动驾驶系统在不确定性环境下的鲁棒性和安全性,可以加速自动驾驶技术的商业化落地,并提升交通效率和安全性。该方法还可扩展到其他机器人导航和决策领域。

📄 摘要(原文)

Autonomous driving in dense, dynamic environments requires decision-making systems that can exploit both spatial structure and long-horizon temporal dependencies while remaining robust to uncertainty. This work presents a novel framework that integrates multi-channel bird's-eye-view occupancy grids with transformer-based sequence modeling for tactical driving in complex roundabout scenarios. To address the imbalance between frequent low-risk states and rare safety-critical decisions, we propose the Uncertainty-Weighted Decision Transformer (UWDT). UWDT employs a frozen teacher transformer to estimate per-token predictive entropy, which is then used as a weight in the student model's loss function. This mechanism amplifies learning from uncertain, high-impact states while maintaining stability across common low-risk transitions. Experiments in a roundabout simulator, across varying traffic densities, show that UWDT consistently outperforms other baselines in terms of reward, collision rate, and behavioral stability. The results demonstrate that uncertainty-aware, spatial-temporal transformers can deliver safer and more efficient decision-making for autonomous driving in complex traffic environments.