FASTopoWM: Fast-Slow Lane Segment Topology Reasoning with Latent World Models

📄 arXiv: 2507.23325v4 📥 PDF

作者: Yiming Yang, Hongbin Lin, Yueru Luo, Suzhong Fu, Chao Zheng, Xinrui Yan, Shuqi Mei, Kun Tang, Shuguang Cui, Zhen Li

分类: cs.CV

发布日期: 2025-07-31 (更新: 2025-11-12)


💡 一句话要点

FASTopoWM:利用潜在世界模型的快慢车道线拓扑推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 车道线拓扑推理 自动驾驶 时间感知 潜在世界模型 鸟瞰图 BEV感知

📋 核心要点

  1. 现有车道线拓扑推理方法难以有效利用时间信息,且易受姿态估计失败影响,限制了性能提升。
  2. FASTopoWM提出一种快慢车道线拓扑推理框架,利用潜在世界模型进行时间信息传播,并并行监督新旧查询。
  3. 实验表明,FASTopoWM在OpenLane-V2数据集上,车道线段检测和中心线感知方面均超越了现有最佳方法。

📝 摘要(中文)

车道线拓扑推理提供全面的鸟瞰图(BEV)道路场景理解,可作为面向规划的端到端自动驾驶系统中的关键感知模块。现有的车道线拓扑推理方法通常无法有效地利用时间信息来增强检测和推理性能。最近,基于流的时间传播方法通过在查询和BEV级别结合时间线索,展示了有希望的结果。然而,它仍然受到过度依赖历史查询、容易受到姿态估计失败的影响以及时间传播不足的限制。为了克服这些限制,我们提出FASTopoWM,一种新颖的快慢车道线拓扑推理框架,该框架通过潜在世界模型进行增强。为了减少姿态估计失败的影响,这个统一的框架能够并行监督历史查询和新初始化的查询,从而促进快慢系统之间的相互加强。此外,我们引入了以动作潜在变量为条件的潜在查询和BEV世界模型,以将状态表示从过去的观察传播到当前时间步。这种设计大大提高了慢速管道中时间感知的性能。在OpenLane-V2基准上的大量实验表明,FASTopoWM在车道线段检测(mAP为37.4% vs. 33.6%)和中心线感知(OLS为46.3% vs. 41.5%)方面均优于最先进的方法。

🔬 方法详解

问题定义:论文旨在解决现有车道线拓扑推理方法在利用时间信息方面的不足,以及对姿态估计误差的敏感性问题。现有方法过度依赖历史查询,导致误差累积,且时间传播效果不佳,限制了感知性能的提升。

核心思路:论文的核心思路是构建一个快慢双分支的推理框架,并引入潜在世界模型来增强时间信息的利用。快分支处理新查询,慢分支则利用潜在世界模型对历史信息进行编码和传播。通过并行监督和相互增强,提高系统的鲁棒性和准确性。

技术框架:FASTopoWM框架包含以下主要模块:1) 快分支:处理当前帧的新查询,进行车道线检测和拓扑推理;2) 慢分支:利用潜在世界模型,基于历史观测和动作潜在变量,进行状态表示的传播;3) 潜在世界模型:包含查询潜在模型和BEV潜在模型,用于编码和传播历史信息;4) 并行监督机制:同时监督快慢分支的输出,实现相互增强。

关键创新:论文的关键创新在于:1) 提出了快慢双分支的推理框架,有效平衡了新旧信息的利用;2) 引入了潜在世界模型,用于学习和传播车道线拓扑结构的时序信息;3) 设计了并行监督机制,增强了系统的鲁棒性和准确性。与现有方法相比,FASTopoWM能够更好地利用时间信息,并减少对姿态估计的依赖。

关键设计:论文的关键设计包括:1) 动作潜在变量:用于编码车辆的运动信息,并作为潜在世界模型的输入;2) 损失函数:采用多任务损失函数,同时监督车道线检测、拓扑推理和潜在世界模型的学习;3) 网络结构:采用Transformer结构,用于编码和解码查询和BEV特征,并进行时间信息的传播。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FASTopoWM在OpenLane-V2基准测试中取得了显著的性能提升。在车道线段检测方面,mAP指标达到37.4%,相比现有最佳方法提升了3.8个百分点(37.4% vs. 33.6%)。在中心线感知方面,OLS指标达到46.3%,相比现有最佳方法提升了4.8个百分点(46.3% vs. 41.5%)。这些结果表明FASTopoWM在车道线拓扑推理方面具有显著优势。

🎯 应用场景

该研究成果可应用于自动驾驶系统的感知模块,提升车辆对道路环境的理解能力,尤其是在复杂交通场景和恶劣天气条件下。通过更准确的车道线拓扑推理,可以提高自动驾驶系统的决策规划能力,从而提升安全性、可靠性和用户体验。此外,该方法也可应用于高精地图的构建与更新。

📄 摘要(原文)

Lane segment topology reasoning provides comprehensive bird's-eye view (BEV) road scene understanding, which can serve as a key perception module in planning-oriented end-to-end autonomous driving systems. Existing lane topology reasoning methods often fall short in effectively leveraging temporal information to enhance detection and reasoning performance. Recently, stream-based temporal propagation method has demonstrated promising results by incorporating temporal cues at both the query and BEV levels. However, it remains limited by over-reliance on historical queries, vulnerability to pose estimation failures, and insufficient temporal propagation. To overcome these limitations, we propose FASTopoWM, a novel fast-slow lane segment topology reasoning framework augmented with latent world models. To reduce the impact of pose estimation failures, this unified framework enables parallel supervision of both historical and newly initialized queries, facilitating mutual reinforcement between the fast and slow systems. Furthermore, we introduce latent query and BEV world models conditioned on the action latent to propagate the state representations from past observations to the current timestep. This design substantially improves the performance of temporal perception within the slow pipeline. Extensive experiments on the OpenLane-V2 benchmark demonstrate that FASTopoWM outperforms state-of-the-art methods in both lane segment detection (37.4% v.s. 33.6% on mAP) and centerline perception (46.3% v.s. 41.5% on OLS).