WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving

📄 arXiv: 2512.19133v1 📥 PDF

作者: Pengxuan Yang, Ben Lu, Zhongpu Xia, Chao Han, Yinfeng Gao, Teng Zhang, Kun Zhan, XianPeng Lang, Yupeng Zheng, Qichao Zhang

分类: cs.RO, cs.CV

发布日期: 2025-12-22

备注: AAAI 2026, first version


💡 一句话要点

WorldRFT:通过强化微调的潜在世界模型规划,提升自动驾驶安全性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 潜在世界模型 强化学习 分层规划 表征学习

📋 核心要点

  1. 现有基于重构的潜在世界模型在自动驾驶中存在感知与规划任务纠缠,导致规划性能次优。
  2. WorldRFT通过分层规划分解和局部感知交互细化,对齐场景表征学习与规划,并使用强化学习微调策略。
  3. 实验表明,WorldRFT在nuScenes和NavSim上均达到SOTA,显著降低碰撞率,并可与LiDAR方法媲美。

📝 摘要(中文)

本文提出WorldRFT,一个面向规划的潜在世界模型框架,旨在通过分层规划分解和局部感知交互细化机制,将场景表征学习与规划对齐,并利用强化学习微调(RFT)来增强安全关键策略的性能。WorldRFT集成了视觉-几何基础模型以提高3D空间感知能力,采用分层规划任务分解来指导表征优化,并利用局部感知迭代细化来推导面向规划的驾驶策略。此外,引入了组相对策略优化(GRPO),它应用轨迹高斯化和碰撞感知奖励来微调驾驶策略,从而系统地提高安全性。WorldRFT在nuScenes和NavSim基准测试中均达到了最先进的(SOTA)性能。在nuScenes上,碰撞率降低了83%(0.30% -> 0.05%)。在NavSim上,仅使用摄像头传感器输入,它获得了与基于激光雷达的SOTA方法DiffusionDrive相当的性能(87.8 vs. 88.1 PDMS)。

🔬 方法详解

问题定义:现有基于潜在世界模型的自动驾驶方法,通常以重构为导向进行表征学习,这使得感知和规划任务相互纠缠,导致模型在规划任务上的优化效果不佳。尤其是在安全关键场景下,这种次优的规划能力会带来潜在的安全风险。

核心思路:WorldRFT的核心思路是将场景表征学习与规划任务对齐。通过引入分层规划分解,将复杂的驾驶任务分解为更小的、更易于管理的子任务,从而引导表征学习过程。同时,利用局部感知交互细化机制,使模型能够关注与当前规划决策相关的局部信息,从而提高规划的准确性和效率。此外,采用强化学习微调,进一步提升策略在安全关键场景下的表现。

技术框架:WorldRFT框架主要包含以下几个模块:1) 视觉-几何基础模型:用于提取场景的3D空间信息,增强模型的空间感知能力。2) 分层规划任务分解模块:将驾驶任务分解为多个层级的子任务,例如全局路径规划、局部轨迹规划和车辆控制。3) 局部感知交互细化模块:根据当前规划任务,选择性地关注场景中的局部信息,并通过迭代细化来优化规划结果。4) 强化学习微调模块:使用强化学习算法,对驾驶策略进行微调,以提高其在安全关键场景下的表现。

关键创新:WorldRFT的关键创新在于其面向规划的表征学习方法。与传统的重构导向方法不同,WorldRFT通过分层规划分解和局部感知交互细化,将表征学习与规划任务紧密结合,从而提高了规划的性能和安全性。此外,提出的组相对策略优化(GRPO)方法,通过轨迹高斯化和碰撞感知奖励,进一步提升了策略的安全性。

关键设计:在视觉-几何基础模型方面,具体采用的模型结构和训练方式未知,但强调了3D空间信息的提取。分层规划任务分解的具体层级划分和任务定义未知。局部感知交互细化模块的具体实现方式,例如注意力机制或图神经网络,未知。强化学习微调采用的算法是组相对策略优化(GRPO),它包含轨迹高斯化和碰撞感知奖励两个关键设计。轨迹高斯化旨在使策略输出更加平滑和稳定,碰撞感知奖励则用于惩罚策略中的碰撞行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WorldRFT在nuScenes数据集上将碰撞率降低了83%(从0.30%降至0.05%),表明其在安全性方面取得了显著提升。在NavSim仿真环境中,WorldRFT仅使用摄像头输入,就达到了与基于激光雷达的SOTA方法DiffusionDrive相媲美的性能(87.8 vs. 88.1 PDMS),证明了其在感知和规划方面的强大能力。

🎯 应用场景

WorldRFT的研究成果可应用于各种自动驾驶场景,包括城市道路、高速公路和停车场等。该方法能够提高自动驾驶系统的安全性和可靠性,降低事故风险,并提升驾驶体验。此外,该研究思路也可推广到其他机器人领域,例如无人机和移动机器人等。

📄 摘要(原文)

Latent World Models enhance scene representation through temporal self-supervised learning, presenting a perception annotation-free paradigm for end-to-end autonomous driving. However, the reconstruction-oriented representation learning tangles perception with planning tasks, leading to suboptimal optimization for planning. To address this challenge, we propose WorldRFT, a planning-oriented latent world model framework that aligns scene representation learning with planning via a hierarchical planning decomposition and local-aware interactive refinement mechanism, augmented by reinforcement learning fine-tuning (RFT) to enhance safety-critical policy performance. Specifically, WorldRFT integrates a vision-geometry foundation model to improve 3D spatial awareness, employs hierarchical planning task decomposition to guide representation optimization, and utilizes local-aware iterative refinement to derive a planning-oriented driving policy. Furthermore, we introduce Group Relative Policy Optimization (GRPO), which applies trajectory Gaussianization and collision-aware rewards to fine-tune the driving policy, yielding systematic improvements in safety. WorldRFT achieves state-of-the-art (SOTA) performance on both open-loop nuScenes and closed-loop NavSim benchmarks. On nuScenes, it reduces collision rates by 83% (0.30% -> 0.05%). On NavSim, using camera-only sensors input, it attains competitive performance with the LiDAR-based SOTA method DiffusionDrive (87.8 vs. 88.1 PDMS).