Distill to Think, Foresee to Act: Cognitive-Physical Reinforcement Learning for Autonomous Driving
作者: Yang Wu, Qiang Meng, Zhaojiang Liu, Youquan Liu, Jian Yang, Jin Xie
分类: cs.CV, cs.LG
发布日期: 2026-05-20
💡 一句话要点
提出CoPhy认知-物理强化学习框架,提升自动驾驶安全性和意图理解。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 自动驾驶 强化学习 世界模型 知识蒸馏 行为预测 认知推理 BEV表示
📋 核心要点
- 现有端到端自动驾驶模型受限于模仿学习的性能上限,缺乏对交通语义和驾驶意图的深层理解。
- CoPhy框架通过知识蒸馏将视觉语言模型(VLM)的知识迁移到BEV编码器,并构建可预测未来语义地图的BEV世界模型。
- 实验表明,CoPhy在NAVSIM基准测试中达到SOTA,并通过语言指令实现了更安全和可控的驾驶行为。
📝 摘要(中文)
当前端到端自动驾驶模型受到模仿学习行为克隆上限的根本限制。强化学习为更智能的自主性提供了途径,但需要两个缺失的基础设施:(1)理解交通语义和驾驶意图的认知基础,以及(2)能够预测候选动作后果的有远见的物理环境。为此,我们提出了CoPhy,一个用于自动驾驶的认知-物理强化学习框架。为了“蒸馏以思考”,我们将VLM知识提炼到BEV编码器中,然后完全丢弃VLM,以零推理成本保持认知能力,同时释放认知通道作为可选人类语言命令的可插拔接口。为了“预见以行动”,我们构建了一个自回归BEV世界模型,该模型显式地预测以候选动作为条件的未来语义地图,作为一个可解释的物理沙箱,从中可以直接导出安全指标。基于这种双重基础设施,我们通过GRPO优化驾驶策略,采用一种新颖的双重奖励机制:来自BEV rollouts的物理奖励强制执行硬性安全约束,而来自语言对齐评分器的认知奖励确保意图一致性。大量的实验表明,CoPhy不仅在NAVSIM v1和v2基准测试中取得了最先进的结果,而且还通过认知知情的场景一致性和通过用户定义的语言指令实现的灵活意图控制,实现了更安全的驾驶。
🔬 方法详解
问题定义:现有端到端自动驾驶模型主要依赖模仿学习,其性能受到数据集质量和行为克隆的限制,难以泛化到复杂场景。此外,这些模型缺乏对交通规则和驾驶意图的显式理解,难以保证驾驶安全性和可解释性。因此,需要一种能够理解交通语义、预测未来状态并进行安全决策的自动驾驶方法。
核心思路:CoPhy的核心思路是将认知能力(来自视觉语言模型)和物理预测能力(通过BEV世界模型)融入到强化学习框架中。通过知识蒸馏,将VLM的知识迁移到BEV编码器,使其具备理解交通语义的能力。同时,构建一个自回归BEV世界模型,用于预测未来场景状态,从而评估候选动作的安全性。
技术框架:CoPhy框架包含以下主要模块:1) BEV编码器:用于提取场景的BEV特征表示,通过知识蒸馏获得认知能力。2) BEV世界模型:一个自回归模型,用于预测未来语义地图,以评估动作的安全性。3) 强化学习策略:使用GRPO算法优化驾驶策略,结合物理奖励(基于BEV rollouts)和认知奖励(基于语言对齐评分器)。
关键创新:CoPhy的关键创新在于:1) 认知-物理融合:将认知能力和物理预测能力结合到强化学习框架中,提升了自动驾驶的智能性和安全性。2) BEV世界模型:通过预测未来语义地图,实现了对动作后果的显式建模,为安全决策提供了依据。3) 双重奖励机制:结合物理奖励和认知奖励,实现了安全约束和意图一致性的平衡。
关键设计:BEV世界模型采用自回归结构,以当前BEV地图和候选动作为输入,预测下一时刻的BEV地图。物理奖励基于BEV rollouts计算,用于惩罚碰撞等不安全行为。认知奖励基于语言对齐评分器计算,用于鼓励策略符合用户指定的驾驶意图。GRPO算法用于优化策略,平衡探索和利用。
🖼️ 关键图片
📊 实验亮点
CoPhy在NAVSIM v1和v2基准测试中取得了最先进的结果,显著提升了驾驶安全性和意图理解能力。通过与现有方法的对比,CoPhy在碰撞率、偏离道路率等指标上均有明显改善。此外,CoPhy还能够根据用户定义的语言指令,灵活地调整驾驶策略,实现个性化的驾驶体验。
🎯 应用场景
CoPhy框架可应用于各种自动驾驶场景,例如城市道路、高速公路和停车场。该框架能够提升自动驾驶系统的安全性、可靠性和可解释性,并支持用户通过自然语言指令进行意图控制。此外,该研究思路可以推广到其他机器人领域,例如无人机和移动机器人。
📄 摘要(原文)
Current end-to-end autonomous driving models are fundamentally constrained by the behavioral cloning ceiling of imitation learning. While reinforcement learning offers a path to smarter autonomy, it demands two missing pieces of infrastructure: (1) a cognitive foundation that understands traffic semantics and driving intent, and (2) a foresighted physical environment that can anticipate the consequences of candidate actions. To this end, we propose CoPhy, a CognitivePhysical reinforcement learning framework for autonomous driving. To distill to think, we distill VLM knowledge into the BEV encoder and then discard the VLM entirely, retaining cognitive ability at zero inference cost while releasing the cognitive channel as a pluggable interface for optional human language commands. To foresee to act, we build an auto-regressive BEV world model that explicitly predicts future semantic maps conditioned on candidate actions, serving as an interpretable physical sandbox from which safety metrics are directly derived. Built upon this dual infrastructure, we optimize the driving policy via GRPO with a novel dual-reward mechanism: a physical reward derived from BEV rollouts enforces hard safety constraints, while a cognitive reward from a language-aligned scorer ensures intent compliance. Extensive experiments demonstrate that CoPhy not only achieves state-of-the-art results on NAVSIM v1 and v2 benchmarks, but also enables safer driving via cognitively informed scene compliance and flexible intent control through user-defined language instructions.