PLAN-S: Bridging Planning with Latent Style Dynamics for Autonomous Driving World Models
作者: Xiaoyun Qiu, Jingtao He, Yijie Chen, Yusong Huang, Haotian Wang, Yixuan Wang, Xinhu Zheng
分类: cs.AI, cs.RO
发布日期: 2026-06-04
💡 一句话要点
提出PLAN-S以解决自主驾驶中风险与风格动态建模问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 潜在世界模型 自主驾驶 轨迹规划 风险建模 风格动态 语义成本图 智能交通 机器人导航
📋 核心要点
- 现有的潜在世界模型在自主驾驶中存在风险和风格动态建模不足的问题,导致轨迹生成的可控性较差。
- PLAN-S通过解码风格条件的四通道语义成本图,提供了一种新的规划器接口,增强了对驾驶风格和风险的建模能力。
- 在nuScenes上,PLAN-S在每个时间步都降低了L2误差,并在3秒碰撞率上实现了42%的相对减少,显示出显著的安全性提升。
📝 摘要(中文)
潜在世界模型(LWM)通过预测紧凑的场景动态增强了端到端自主驾驶。然而,现有基于LWM的规划器通常直接从纠缠的潜在表示生成轨迹,缺乏对风险、可驾驶性和多样化风格偏好的明确建模。为此,本文提出了PLAN-S(基于潜在风格动态的规划),通过从潜在表示解码风格条件的四通道语义成本图,解决了紧凑性与可控性之间的矛盾。该成本图基于自我状态和驾驶风格,并通过注意力级融合和奖励级融合两种接口在规划决策的上游进行处理。实验结果表明,PLAN-S在nuScenes和NAVSIM上均显著提升了安全性和性能。
🔬 方法详解
问题定义:本文旨在解决现有潜在世界模型在自主驾驶中对风险、可驾驶性和多样化风格偏好的建模不足的问题。现有方法通常直接从纠缠的潜在表示生成轨迹,缺乏明确的控制机制。
核心思路:PLAN-S通过解码风格条件的四通道语义成本图,提供了一种新的桥接机制,使得规划器能够在决策前更好地考虑驾驶风格和风险因素,从而提高轨迹生成的安全性和可控性。
技术框架:PLAN-S的整体架构包括两个主要模块:首先,从潜在表示中解码出风格条件的四通道语义成本图;其次,通过注意力级融合和奖励级融合两种接口将成本图应用于规划决策。
关键创新:PLAN-S的主要创新在于引入了风格条件的语义成本图,这一设计使得规划器能够在生成轨迹时更好地考虑驾驶风格和风险,显著提升了轨迹选择的安全性。
关键设计:在设计中,成本图的生成依赖于自我状态和驾驶风格的条件,使用了特定的损失函数来优化轨迹选择的安全性和有效性。
🖼️ 关键图片
📊 实验亮点
在实验中,PLAN-S在nuScenes数据集上实现了每个时间步L2误差的降低,平均L2为0.55米,并在3秒碰撞率上相较基线实现了42%的相对减少。在NAVSIM上,规则成本变体达到了89.4的预测驾驶模型评分,显示出显著的性能提升。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶汽车的路径规划、智能交通系统和机器人导航等。通过提供更安全和可控的轨迹生成机制,PLAN-S能够显著提高自主驾驶系统的安全性和可靠性,未来可能对智能交通的普及和发展产生深远影响。
📄 摘要(原文)
Latent world models (LWMs) have strengthened end-to-end autonomous driving by forecasting compact scene dynamics for downstream planning. However, existing LWM-based planners usually generate trajectories directly from entangled latent representations. This compact latent-to-planner pathway lacks explicit modeling of risk, drivability, and diverse style preferences, making driving-style dynamics difficult to supervise, inspect, or modulate before a final trajectory is selected. We propose PLAN-S (PLANning with latent Style dynamics), a planner-facing bridge that addresses this compactness-controllability dilemma by decoding a style-conditioned, four-channel semantic cost map from the latent representation. The cost map is conditioned on ego state and driving style and is consumed up-stream of the planning decision through two host-side interfaces: attention-level fusion for regression planners and reward-level fusion for anchor-score planners. We validate PLAN-S on two architecturally distinct hosts, ResWorld on nuScenes and WoTE on NAVSIM, while keeping the host backbones frozen to isolate the contribution of the proposed bridge. On nuScenes, PLAN-S reduces L2 at every horizon over the baseline, with 0.55 m average L2 and a 42% relative reduction in the 3 s collision rate. On NAVSIM, the rule-cost variant reaches 89.4 Predictive Driver Model Score (PDMS), while the learned cost variant provides complementary gains on baseline-challenging scenes. Ablations show that the cost pathway contributes most directly to safer trajectory selection. Qualitative results further show that PLAN-S can produce diverse cost maps, with spatially consistent variations aligned to different driving styles.