From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction

📄 arXiv: 2510.19654v2 📥 PDF

作者: Zhida Zhao, Talas Fu, Yifan Wang, Lijun Wang, Huchuan Lu

分类: cs.CV, cs.AI, cs.CL, cs.RO

发布日期: 2025-10-22 (更新: 2025-11-25)

备注: Accepted by NuerIPS 2025 (Poster)

🔗 代码/项目: GITHUB


💡 一句话要点

提出策略世界模型,融合世界建模与轨迹规划,提升自动驾驶决策能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 轨迹规划 自动驾驶 状态预测 策略网络

📋 核心要点

  1. 现有世界模型主要用于世界模拟,与轨迹规划脱节,未能充分发挥其在自动驾驶系统中的潜力。
  2. 策略世界模型(PWM)通过协同状态-动作预测,模拟人类的预测感知,从而提升规划的可靠性。
  3. PWM引入动态增强的并行token生成机制,配备上下文引导tokenizer和自适应动态焦点损失,提升视频预测效率。

📝 摘要(中文)

本文提出了一种名为策略世界模型(PWM)的全新驾驶范式,它将世界建模和轨迹规划集成到一个统一的架构中。PWM通过提出的无动作未来状态预测方案,利用学习到的世界知识来促进规划。通过协同状态-动作预测,PWM能够模仿类人预测感知,从而产生更可靠的规划性能。为了提高视频预测的效率,我们进一步引入了一种动态增强的并行token生成机制,该机制配备了上下文引导的tokenizer和自适应动态焦点损失。仅使用前置摄像头输入,我们的方法就能达到或超过依赖多视图和多模态输入的最新方法。

🔬 方法详解

问题定义:现有驾驶世界模型通常将世界建模与轨迹规划分离,导致世界模型学习到的知识难以有效指导轨迹规划。此外,现有方法在预测未来状态时,往往依赖于动作序列,而忽略了环境的上下文信息,限制了预测的准确性和鲁棒性。

核心思路:本文的核心思路是将世界建模和轨迹规划整合到一个统一的框架中,并利用学习到的世界知识来指导轨迹规划。通过引入无动作的未来状态预测机制,模型可以根据环境的上下文信息预测未来的状态,从而避免了对动作序列的依赖,提高了预测的准确性和鲁棒性。同时,通过协同状态-动作预测,模型可以模拟人类的预测感知,进一步提升规划的可靠性。

技术框架:PWM包含三个主要模块:世界模型、策略网络和规划器。世界模型负责学习环境的动态特性,并预测未来的状态。策略网络负责根据当前的状态和世界模型的预测结果,生成动作序列。规划器负责根据策略网络生成的动作序列,规划出最优的轨迹。世界模型采用了一种动态增强的并行token生成机制,该机制配备了上下文引导的tokenizer和自适应动态焦点损失。

关键创新:PWM的关键创新在于以下几个方面:1) 将世界建模和轨迹规划整合到一个统一的框架中;2) 引入无动作的未来状态预测机制;3) 提出动态增强的并行token生成机制。与现有方法相比,PWM能够更有效地利用世界模型学习到的知识来指导轨迹规划,并能够更准确地预测未来的状态。

关键设计:在世界模型中,采用了Transformer架构,并引入了上下文引导的tokenizer,用于将图像转换为token序列。为了提高视频预测的效率,采用了动态增强的并行token生成机制,该机制可以并行生成多个token,从而加速了预测过程。此外,还引入了自适应动态焦点损失,用于平衡不同token的重要性,从而提高预测的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法仅使用前置摄像头输入,在自动驾驶场景下的轨迹预测任务中,性能达到或超过了依赖多视图和多模态输入的现有方法。这表明该方法具有很强的特征提取和建模能力,能够有效地利用有限的输入信息进行准确的预测。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航等领域。通过提升世界建模和轨迹规划的协同能力,可以提高自动驾驶系统的安全性、可靠性和效率。未来,该方法有望应用于更复杂的交通场景,并与其他感知和决策模块集成,实现更高级别的自动驾驶。

📄 摘要(原文)

Despite remarkable progress in driving world models, their potential for autonomous systems remains largely untapped: the world models are mostly learned for world simulation and decoupled from trajectory planning. While recent efforts aim to unify world modeling and planning in a single framework, the synergistic facilitation mechanism of world modeling for planning still requires further exploration. In this work, we introduce a new driving paradigm named Policy World Model (PWM), which not only integrates world modeling and trajectory planning within a unified architecture, but is also able to benefit planning using the learned world knowledge through the proposed action-free future state forecasting scheme. Through collaborative state-action prediction, PWM can mimic the human-like anticipatory perception, yielding more reliable planning performance. To facilitate the efficiency of video forecasting, we further introduce a dynamically enhanced parallel token generation mechanism, equipped with a context-guided tokenizer and an adaptive dynamic focal loss. Despite utilizing only front camera input, our method matches or exceeds state-of-the-art approaches that rely on multi-view and multi-modal inputs. Code and model weights will be released at https://github.com/6550Zhao/Policy-World-Model.