DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving
作者: Lingjun Zhang, Changjie Wu, Linzhe Shi, Jiangyang Li, Jiaxin Liu, Lei Yang, Hang Zhang, Mu Xu, Hong Wang
分类: cs.CV, cs.RO
发布日期: 2026-05-11
备注: ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出DeepSight世界模型,通过BEV空间潜在状态预测实现长时序端到端自动驾驶
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 端到端自动驾驶 世界模型 BEV空间预测 视觉语言模型 长时序建模 长尾场景处理 闭环评估
📋 核心要点
- 现有端到端自动驾驶方法多直接套用通用VLM架构,缺乏针对驾驶场景中视觉推理与长时序状态预测的深度定制。
- DeepSight通过在BEV空间并行预测未来潜在语义特征,构建了长时序世界模型,并结合社会知识增强文本推理能力。
- 该方法在Bench2drive闭环基准测试中表现优异,显著提升了模型在复杂长尾驾驶场景下的决策鲁棒性与准确性。
📝 摘要(中文)
端到端自动驾驶系统正日益集成视觉语言模型(VLM)架构,通过引入文本或视觉推理来增强决策的鲁棒性与准确性。然而,现有方法大多直接沿用通用领域的推理机制,缺乏针对自动驾驶场景(尤其是视觉推理模块)的深入探索。本文提出了DeepSight,一种自动驾驶世界模型,通过在鸟瞰图(BEV)空间对连续未来帧进行潜在语义特征的并行预测,实现了对未来世界状态的长时序建模。此外,本文引入了一种高效且自适应的文本推理机制,利用额外的社会知识与推理能力,进一步提升了模型在复杂长尾场景下的驾驶性能。该方法在Bench2drive闭环基准测试中达到了最先进(SOTA)水平。
🔬 方法详解
问题定义:现有端到端自动驾驶系统在处理复杂长尾场景时,往往缺乏对未来动态环境的有效预测能力,且通用的视觉语言推理机制难以直接适配自动驾驶中对时空一致性和空间感知的高要求。
核心思路:论文提出构建一个专门的驾驶世界模型,通过在BEV空间内对未来状态进行潜在语义预测,将长时序建模转化为特征空间的并行预测任务,从而增强系统对未来交通参与者行为的预判能力。
技术框架:DeepSight架构包含两个核心模块:一是基于BEV空间的潜在状态预测器,用于生成连续未来帧的语义特征;二是自适应文本推理模块,通过引入外部社会知识库,对视觉感知结果进行逻辑推理与决策优化。
关键创新:最大的创新在于将长时序预测从像素空间转移到BEV潜在语义空间,降低了计算复杂度,同时通过引入社会知识增强了VLM在自动驾驶决策中的逻辑推理深度,而非仅仅依赖视觉特征。
关键设计:模型采用了并行预测策略以提高推理效率,并设计了针对长尾场景的自适应机制,通过动态调整文本推理权重,使系统在面对罕见交通状况时能调用更丰富的先验知识进行决策。
🖼️ 关键图片
📊 实验亮点
DeepSight在Bench2drive闭环基准测试中展现了卓越性能,成功超越了现有的主流端到端驾驶模型。实验结果表明,通过BEV空间的潜在状态预测与社会知识增强的文本推理,模型在处理长时序预测任务时表现出极高的准确性,并在复杂交通场景下的决策成功率与安全性指标上均达到了SOTA水平。
🎯 应用场景
该研究主要应用于L4级及以上自动驾驶系统的感知与决策模块。通过增强对未来交通环境的预测能力和逻辑推理能力,DeepSight特别适用于城市复杂路口、恶劣天气及罕见长尾交通场景,能显著提升自动驾驶车辆的安全性、舒适性及应对突发状况的鲁棒性。
📄 摘要(原文)
End-to-end autonomous driving systems are increasingly integrating Vision-Language Model (VLM) architectures, incorporating text reasoning or visual reasoning to enhance the robustness and accuracy of driving decisions. However, the reasoning mechanisms employed in most methods are direct adaptations from general domains, lacking in-depth exploration tailored to autonomous driving scenarios, particularly within visual reasoning modules. In this paper, we propose a driving world model that performs parallel prediction of latent semantic features for consecutive future frames in the bird's-eye-view (BEV) space, thereby enabling long-horizon modeling of future world states. We also introduce an efficient and adaptive text reasoning mechanism that utilizes additional social knowledge and reasoning capabilities to further improve driving performance in challenging long-tail scenarios. We present a novel, efficient, and effective approach that achieves state-of-the-art (SOTA) results on the closed-loop Bench2drive benchmark. Codes are available at: https://github.com/hotdogcheesewhite/DeepSight.