Driving Beyond Privilege: Distilling Dense-Reward Knowledge into Sparse-Reward Policies

📄 arXiv: 2512.04279v2 📥 PDF

作者: Feeza Khan Khanzada, Jaerock Kwon

分类: cs.RO

发布日期: 2025-12-03 (更新: 2025-12-27)


💡 一句话要点

提出奖励特权世界模型蒸馏,解决自动驾驶中稠密奖励与稀疏目标不匹配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 强化学习 世界模型 知识蒸馏 稀疏奖励 稠密奖励 泛化能力

📋 核心要点

  1. 现有基于稠密奖励的自动驾驶模型易过拟合,泛化性差,难以适应实际部署中稀疏奖励场景。
  2. 提出奖励特权世界模型蒸馏,利用稠密奖励训练教师模型,提取其潜在动态,指导学生模型学习稀疏奖励策略。
  3. 实验表明,该方法在CARLA模拟器中,车道跟随和超车任务上,均优于稠密奖励教师模型和稀疏奖励基线。

📝 摘要(中文)

本文研究如何在基于视觉的自动驾驶中利用模拟器定义的稠密奖励,同时避免其与部署指标的不对齐。在CARLA等真实模拟器中,特权状态(如车道几何、违规行为、碰撞时间)可转化为稠密奖励,以稳定和加速基于模型的强化学习。然而,直接基于这些信号训练的策略通常会过拟合,并且在评估稀疏目标(如路线完成和无碰撞超车)时泛化失败。为此,我们提出奖励特权世界模型蒸馏,这是一个两阶段框架,其中教师DreamerV3风格的智能体首先使用稠密特权奖励进行训练,然后仅将其潜在动态蒸馏到仅使用稀疏任务奖励训练的学生智能体中。教师和学生共享相同的观察空间(语义鸟瞰图图像);特权信息仅通过教师的奖励进入,学生不模仿教师的动作或价值估计。相反,学生的World Model被正则化以匹配教师的潜在动态,而其策略则完全基于稀疏的成功/失败信号从头开始学习。在CARLA车道跟随和超车基准测试中,稀疏奖励学生优于稠密奖励教师和从头开始的稀疏基线。在未见过的车道跟随路线上,奖励特权蒸馏相对于稠密教师提高了约23%的成功率,同时保持了相当或更好的安全性。在超车方面,学生在训练路线上保持了近乎完美的性能,并在未见过的路线上实现了高达27倍的成功率提升,并改善了车道保持。这些结果表明,可以利用稠密奖励来学习更丰富的动态模型,同时保持部署策略严格针对稀疏的、与部署对齐的目标进行优化。

🔬 方法详解

问题定义:论文旨在解决在自动驾驶任务中,利用模拟器中稠密奖励训练的模型难以泛化到真实世界稀疏奖励环境的问题。现有方法直接使用稠密奖励训练策略,导致策略过度拟合模拟器环境,无法有效完成实际部署中依赖稀疏奖励的任务,例如路线完成和无碰撞超车。

核心思路:论文的核心思路是利用稠密奖励学习一个具有丰富动态信息的World Model,然后将该World Model的知识蒸馏到仅使用稀疏奖励训练的学生模型中。这样,学生模型可以学习到更通用的动态特性,同时避免直接拟合稠密奖励带来的过拟合问题。

技术框架:该方法采用两阶段框架:1) 教师模型训练:使用DreamerV3-style的智能体,在稠密奖励下训练,学习环境的动态模型。2) 学生模型蒸馏:学生模型与教师模型共享相同的观察空间(语义鸟瞰图),但仅使用稀疏奖励进行训练。学生模型的World Model被正则化,以匹配教师模型的潜在动态。学生模型的策略从头开始学习,不模仿教师模型的动作或价值估计。

关键创新:该方法的核心创新在于奖励特权蒸馏的思想,即利用稠密奖励的特权信息来学习更丰富的动态模型,但避免直接使用稠密奖励训练策略,从而解决了稠密奖励与稀疏目标不对齐的问题。学生模型不模仿教师模型的动作或价值估计,而是专注于学习与稀疏奖励对齐的策略。

关键设计:关键设计包括:1) 使用DreamerV3-style的智能体作为教师模型,以学习环境的动态模型。2) 使用KL散度等正则化方法,使学生模型的潜在动态与教师模型的潜在动态相匹配。3) 学生模型完全基于稀疏奖励从头开始学习策略,避免了模仿学习带来的偏差。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在CARLA模拟器的车道跟随任务中,奖励特权蒸馏方法相对于稠密奖励教师模型,在未见过的路线上成功率提高了约23%,同时保持了相当或更好的安全性。在超车任务中,学生模型在训练路线上保持了近乎完美的性能,并在未见过的路线上实现了高达27倍的成功率提升,并改善了车道保持。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航等领域,尤其适用于模拟器训练和真实环境部署存在差异的场景。通过利用模拟器中的稠密奖励学习环境动态,并将其迁移到真实环境中的稀疏奖励策略学习,可以有效提高策略的泛化能力和部署效果。该方法还可以扩展到其他强化学习任务中,解决奖励函数设计困难的问题。

📄 摘要(原文)

We study how to exploit dense simulator-defined rewards in vision-based autonomous driving without inheriting their misalignment with deployment metrics. In realistic simulators such as CARLA, privileged state (e.g., lane geometry, infractions, time-to-collision) can be converted into dense rewards that stabilize and accelerate model-based reinforcement learning, but policies trained directly on these signals often overfit and fail to generalize when evaluated on sparse objectives such as route completion and collision-free overtaking. We propose reward-privileged world model distillation, a two-stage framework in which a teacher DreamerV3-style agent is first trained with a dense privileged reward, and only its latent dynamics are distilled into a student trained solely on sparse task rewards. Teacher and student share the same observation space (semantic bird's-eye-view images); privileged information enters only through the teacher's reward, and the student does not imitate the teacher's actions or value estimates. Instead, the student's world model is regularized to match the teacher's latent dynamics while its policy is learned from scratch on sparse success/failure signals. In CARLA lane-following and overtaking benchmarks, sparse-reward students outperform both dense-reward teachers and sparse-from-scratch baselines. On unseen lane-following routes, reward-privileged distillation improves success by about 23 percent relative to the dense teacher while maintaining comparable or better safety. On overtaking, students retain near-perfect performance on training routes and achieve up to a 27x improvement in success on unseen routes, with improved lane keeping. These results show that dense rewards can be leveraged to learn richer dynamics models while keeping the deployed policy optimized strictly for sparse, deployment-aligned objectives.