Found-RL: foundation model-enhanced reinforcement learning for autonomous driving

📄 arXiv: 2602.10458v1 📥 PDF

作者: Yansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen

分类: cs.AI, cs.LG

发布日期: 2026-02-11

备注: 39 pages

🔗 代码/项目: GITHUB


💡 一句话要点

Found-RL:利用基础模型增强自动驾驶强化学习,解决样本效率和可解释性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 强化学习 基础模型 视觉-语言模型 知识蒸馏 异步推理 奖励塑造

📋 核心要点

  1. 传统强化学习在自动驾驶中面临样本效率低和缺乏语义可解释性的挑战,限制了其在复杂场景中的应用。
  2. Found-RL通过异步批量推理框架解耦VLM推理与RL循环,并引入价值边际正则化等机制,将VLM知识蒸馏到RL策略中。
  3. 实验表明,轻量级RL模型在Found-RL框架下能达到接近VLM的性能,并保持实时推理速度,显著提升了效率。

📝 摘要(中文)

强化学习(RL)已成为端到端自动驾驶(AD)的主流范式。然而,RL在复杂场景中存在样本效率低和缺乏语义可解释性的问题。基础模型,特别是视觉-语言模型(VLMs),可以通过提供丰富的、上下文感知的知识来缓解这些问题,但它们的高推理延迟阻碍了在高频RL训练循环中的部署。为了弥合这一差距,我们提出了Found-RL,一个专门用于利用基础模型有效增强AD的RL平台。核心创新是异步批量推理框架,它将繁重的VLM推理与仿真循环分离,有效地解决了延迟瓶颈,从而支持实时学习。我们引入了多样化的监督机制:价值边际正则化(VMR)和优势加权动作指导(AWAG),以有效地将专家级的VLM动作建议提炼到RL策略中。此外,我们采用高吞吐量的CLIP进行密集奖励塑造。我们通过条件对比动作对齐来解决CLIP的动态盲点问题,该方法基于离散的速度/命令来调节提示,并从上下文相关的动作-锚点评分中产生归一化的、基于边际的奖励。Found-RL提供了一个用于微调VLM集成的端到端pipeline,并表明轻量级RL模型可以实现接近VLM的性能,同时保持实时推理(约500 FPS)。代码、数据和模型将在https://github.com/ys-qu/found-rl上公开。

🔬 方法详解

问题定义:现有端到端自动驾驶强化学习方法在复杂场景中存在样本效率低和缺乏语义可解释性的问题。高容量的视觉-语言模型(VLM)虽然能够提供丰富的上下文信息,但其高推理延迟使其难以直接应用于高频率的强化学习训练循环中。因此,如何有效利用VLM的知识来提升强化学习的性能,同时克服VLM的推理延迟,是本文要解决的核心问题。

核心思路:Found-RL的核心思路是将VLM的知识蒸馏到轻量级的强化学习策略中,同时采用异步批量推理框架来解决VLM的推理延迟问题。通过价值边际正则化(VMR)和优势加权动作指导(AWAG)等监督机制,引导RL策略学习VLM的专家行为。此外,利用CLIP模型进行密集奖励塑造,进一步提升RL的性能。

技术框架:Found-RL的整体框架包含以下几个主要模块:1) 异步批量推理框架:将VLM的推理过程与RL的仿真循环解耦,通过异步方式进行VLM推理,并将推理结果用于后续的RL训练。2) 价值边际正则化(VMR):通过约束RL策略的价值函数,使其接近VLM提供的价值估计,从而引导RL策略学习VLM的知识。3) 优势加权动作指导(AWAG):利用VLM提供的动作建议,并根据动作的优势值进行加权,从而引导RL策略学习VLM的专家行为。4) 基于CLIP的密集奖励塑造:利用CLIP模型对环境状态进行编码,并根据状态的相似度来设计奖励函数,从而提升RL的探索效率。

关键创新:Found-RL的关键创新在于以下几个方面:1) 提出了异步批量推理框架,有效解决了VLM的高推理延迟问题,使其能够应用于高频率的强化学习训练循环中。2) 引入了价值边际正则化(VMR)和优势加权动作指导(AWAG)等监督机制,有效地将VLM的知识蒸馏到RL策略中。3) 提出了条件对比动作对齐方法,解决了CLIP在动态环境中的盲点问题,提升了奖励塑造的效果。

关键设计:在异步批量推理框架中,VLM的推理频率可以根据实际情况进行调整,以平衡推理精度和计算开销。在价值边际正则化(VMR)中,需要选择合适的边际值,以避免过度约束RL策略。在优势加权动作指导(AWAG)中,需要选择合适的优势函数,以准确评估动作的价值。在条件对比动作对齐中,需要选择合适的离散化速度/命令,以有效地调节CLIP的提示。

📊 实验亮点

实验结果表明,在Found-RL框架下,轻量级RL模型可以达到接近VLM的性能,同时保持约500 FPS的实时推理速度。相比于直接使用VLM进行决策,Found-RL显著降低了计算成本,并提升了推理效率。此外,VMR和AWAG等监督机制能够有效地提升RL策略的性能,使其能够更好地适应复杂环境。

🎯 应用场景

Found-RL的研究成果可应用于各种自动驾驶场景,例如城市道路导航、高速公路巡航等。通过利用基础模型的知识,可以提升自动驾驶系统的安全性和可靠性。此外,该方法还可以推广到其他需要利用大规模预训练模型进行决策的领域,例如机器人控制、游戏AI等。

📄 摘要(原文)

Reinforcement Learning (RL) has emerged as a dominant paradigm for end-to-end autonomous driving (AD). However, RL suffers from sample inefficiency and a lack of semantic interpretability in complex scenarios. Foundation Models, particularly Vision-Language Models (VLMs), can mitigate this by offering rich, context-aware knowledge, yet their high inference latency hinders deployment in high-frequency RL training loops. To bridge this gap, we present Found-RL, a platform tailored to efficiently enhance RL for AD using foundation models. A core innovation is the asynchronous batch inference framework, which decouples heavy VLM reasoning from the simulation loop, effectively resolving latency bottlenecks to support real-time learning. We introduce diverse supervision mechanisms: Value-Margin Regularization (VMR) and Advantage-Weighted Action Guidance (AWAG) to effectively distill expert-like VLM action suggestions into the RL policy. Additionally, we adopt high-throughput CLIP for dense reward shaping. We address CLIP's dynamic blindness via Conditional Contrastive Action Alignment, which conditions prompts on discretized speed/command and yields a normalized, margin-based bonus from context-specific action-anchor scoring. Found-RL provides an end-to-end pipeline for fine-tuned VLM integration and shows that a lightweight RL model can achieve near-VLM performance compared with billion-parameter VLMs while sustaining real-time inference (approx. 500 FPS). Code, data, and models will be publicly available at https://github.com/ys-qu/found-rl.