From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction

作者: Zhida Zhao, Talas Fu, Yifan Wang, Lijun Wang, Huchuan Lu

分类: cs.CV, cs.AI, cs.CL, cs.RO

发布日期: 2025-10-22 (更新: 2025-11-25)

备注: Accepted by NuerIPS 2025 (Poster)

🔗 代码/项目: GITHUB

💡 一句话要点

提出策略世界模型，融合世界建模与轨迹规划，提升自动驾驶决策能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 轨迹规划 自动驾驶 状态预测 策略网络

📋 核心要点

现有世界模型主要用于世界模拟，与轨迹规划脱节，未能充分发挥其在自动驾驶系统中的潜力。
策略世界模型（PWM）通过协同状态-动作预测，模拟人类的预测感知，从而提升规划的可靠性。
PWM引入动态增强的并行token生成机制，配备上下文引导tokenizer和自适应动态焦点损失，提升视频预测效率。

📝 摘要（中文）

本文提出了一种名为策略世界模型（PWM）的全新驾驶范式，它将世界建模和轨迹规划集成到一个统一的架构中。PWM通过提出的无动作未来状态预测方案，利用学习到的世界知识来促进规划。通过协同状态-动作预测，PWM能够模仿类人预测感知，从而产生更可靠的规划性能。为了提高视频预测的效率，我们进一步引入了一种动态增强的并行token生成机制，该机制配备了上下文引导的tokenizer和自适应动态焦点损失。仅使用前置摄像头输入，我们的方法就能达到或超过依赖多视图和多模态输入的最新方法。

🔬 方法详解

问题定义：现有驾驶世界模型通常将世界建模与轨迹规划分离，导致世界模型学习到的知识难以有效指导轨迹规划。此外，现有方法在预测未来状态时，往往依赖于动作序列，而忽略了环境的上下文信息，限制了预测的准确性和鲁棒性。

核心思路：本文的核心思路是将世界建模和轨迹规划整合到一个统一的框架中，并利用学习到的世界知识来指导轨迹规划。通过引入无动作的未来状态预测机制，模型可以根据环境的上下文信息预测未来的状态，从而避免了对动作序列的依赖，提高了预测的准确性和鲁棒性。同时，通过协同状态-动作预测，模型可以模拟人类的预测感知，进一步提升规划的可靠性。

技术框架：PWM包含三个主要模块：世界模型、策略网络和规划器。世界模型负责学习环境的动态特性，并预测未来的状态。策略网络负责根据当前的状态和世界模型的预测结果，生成动作序列。规划器负责根据策略网络生成的动作序列，规划出最优的轨迹。世界模型采用了一种动态增强的并行token生成机制，该机制配备了上下文引导的tokenizer和自适应动态焦点损失。

关键创新：PWM的关键创新在于以下几个方面：1) 将世界建模和轨迹规划整合到一个统一的框架中；2) 引入无动作的未来状态预测机制；3) 提出动态增强的并行token生成机制。与现有方法相比，PWM能够更有效地利用世界模型学习到的知识来指导轨迹规划，并能够更准确地预测未来的状态。

关键设计：在世界模型中，采用了Transformer架构，并引入了上下文引导的tokenizer，用于将图像转换为token序列。为了提高视频预测的效率，采用了动态增强的并行token生成机制，该机制可以并行生成多个token，从而加速了预测过程。此外，还引入了自适应动态焦点损失，用于平衡不同token的重要性，从而提高预测的准确性。

🖼️ 关键图片

📊 实验亮点

该方法仅使用前置摄像头输入，在自动驾驶场景下的轨迹预测任务中，性能达到或超过了依赖多视图和多模态输入的现有方法。这表明该方法具有很强的特征提取和建模能力，能够有效地利用有限的输入信息进行准确的预测。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航等领域。通过提升世界建模和轨迹规划的协同能力，可以提高自动驾驶系统的安全性、可靠性和效率。未来，该方法有望应用于更复杂的交通场景，并与其他感知和决策模块集成，实现更高级别的自动驾驶。

📄 摘要（原文）

Despite remarkable progress in driving world models, their potential for autonomous systems remains largely untapped: the world models are mostly learned for world simulation and decoupled from trajectory planning. While recent efforts aim to unify world modeling and planning in a single framework, the synergistic facilitation mechanism of world modeling for planning still requires further exploration. In this work, we introduce a new driving paradigm named Policy World Model (PWM), which not only integrates world modeling and trajectory planning within a unified architecture, but is also able to benefit planning using the learned world knowledge through the proposed action-free future state forecasting scheme. Through collaborative state-action prediction, PWM can mimic the human-like anticipatory perception, yielding more reliable planning performance. To facilitate the efficiency of video forecasting, we further introduce a dynamically enhanced parallel token generation mechanism, equipped with a context-guided tokenizer and an adaptive dynamic focal loss. Despite utilizing only front camera input, our method matches or exceeds state-of-the-art approaches that rely on multi-view and multi-modal inputs. Code and model weights will be released at https://github.com/6550Zhao/Policy-World-Model.

From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理