Sim2Real-AD: A Modular Sim-to-Real Framework for Deploying VLM-Guided Reinforcement Learning in Real-World Autonomous Driving

📄 arXiv: 2604.03497 📥 PDF

作者: Zilin Huang, Zhengyang Wan, Zihao Sheng, Boyue Wang, Junwei You, Yue Leng, Sikai Chen

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-04-07


💡 一句话要点

Sim2Real-AD:用于VLM引导强化学习在真实自动驾驶中零样本迁移的模块化框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: Sim2Real 强化学习 自动驾驶 视觉语言模型 零样本迁移

📋 核心要点

  1. 现有VLM引导的强化学习策略难以直接部署到真实自动驾驶车辆,因为策略依赖于模拟器原生观测和动作语义。
  2. Sim2Real-AD框架通过几何观测桥、物理感知动作映射、两阶段渐进训练和实时部署流水线实现零样本迁移。
  3. 实验表明,该框架在真实车辆上实现了高成功率,验证了各模块的有效性,无需真实数据训练。

📝 摘要(中文)

本文提出了Sim2Real-AD,一个模块化的框架,用于将CARLA中训练的、由VLM引导的强化学习策略零样本迁移到真实自动驾驶车辆,无需任何真实世界的强化学习训练数据。该框架将迁移问题分解为四个组成部分:几何观测桥(GOB),将单目前视图像转换为与模拟器兼容的鸟瞰图(BEV)观测;物理感知动作映射(PAM),将策略输出转换为平台无关的物理命令;两阶段渐进训练(TPT)策略,通过分离动作空间和观测空间迁移来稳定适应过程;以及实时部署流水线(RDP),集成了感知、策略推理、控制转换和安全监控,用于闭环执行。仿真实验表明,该框架保留了代表性强化学习算法在不同奖励范式下的相对性能排序,并验证了每个模块的贡献。在全尺寸福特E-Transit上的零样本部署在车辆跟随、避障和停车标志交互场景中分别实现了90%、80%和75%的成功率。据我们所知,这项研究是最早展示在没有真实世界强化学习训练数据的情况下,将CARLA训练的VLM引导的强化学习策略零样本闭环部署到全尺寸真实车辆上的研究之一。

🔬 方法详解

问题定义:论文旨在解决将模拟器中训练的、由视觉语言模型(VLM)引导的强化学习策略零样本迁移到真实自动驾驶车辆的问题。现有方法通常依赖于模拟器特定的观测和动作空间,无法直接应用于真实车辆,并且需要大量的真实数据进行微调或重新训练,成本高昂。

核心思路:论文的核心思路是将sim-to-real迁移问题分解为多个模块,分别处理观测空间和动作空间的差异。通过几何观测桥将真实世界的图像转换为模拟器可理解的观测,通过物理感知动作映射将策略输出转换为真实车辆可执行的物理命令。此外,采用两阶段渐进训练策略,先适应动作空间,再适应观测空间,以稳定训练过程。

技术框架:Sim2Real-AD框架包含四个主要模块:1) 几何观测桥(GOB):将单目相机图像转换为鸟瞰图(BEV)表示,使其与CARLA模拟器的观测空间兼容。2) 物理感知动作映射(PAM):将策略输出的抽象动作转换为车辆的油门、刹车和转向等物理控制命令。3) 两阶段渐进训练(TPT):首先固定观测空间,训练策略适应动作空间;然后固定动作空间,训练策略适应观测空间。4) 实时部署流水线(RDP):集成了感知、策略推理、控制转换和安全监控,实现闭环控制。

关键创新:该论文的关键创新在于提出了一个模块化的sim-to-real框架,能够实现VLM引导的强化学习策略在真实自动驾驶车辆上的零样本迁移。与现有方法相比,该框架无需任何真实世界的强化学习训练数据,降低了部署成本和难度。此外,两阶段渐进训练策略有效地稳定了训练过程。

关键设计:几何观测桥使用深度学习模型将单目图像转换为BEV表示,具体网络结构未知(论文未详细说明)。物理感知动作映射根据车辆的动力学模型和物理约束,将策略输出的抽象动作转换为具体的油门、刹车和转向指令。两阶段渐进训练策略通过调整损失函数的权重,控制动作空间和观测空间的适应速度。实时部署流水线采用模块化的设计,方便集成不同的感知算法和控制策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Sim2Real-AD框架在车辆跟随、避障和停车标志交互等场景中分别实现了90%、80%和75%的成功率。该框架在全尺寸福特E-Transit上进行了零样本部署,无需任何真实世界的强化学习训练数据。仿真实验验证了每个模块的贡献,并表明该框架保留了不同强化学习算法的相对性能排序。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的快速部署和迭代。通过在模拟环境中训练策略,并利用Sim2Real-AD框架进行零样本迁移,可以显著降低真实道路测试的成本和风险。此外,该框架还可以应用于其他机器人领域,例如无人机和移动机器人,实现更高效的sim-to-real迁移。

📄 摘要(原文)

Deploying reinforcement learning policies trained in simulation to real autonomous vehicles remains a fundamental challenge, particularly for VLM-guided RL frameworks whose policies are typically learned with simulator-native observations and simulator-coupled action semantics that are unavailable on physical platforms. This paper presents Sim2Real-AD, a modular framework for zero-shot sim-to-real transfer of CARLA-trained VLM-guided RL policies to full-scale vehicles without any real-world RL training data. The framework decomposes the transfer problem into four components: a Geometric Observation Bridge (GOB) that converts monocular front-view images into simulator-compatible bird's-eye-view (BEV) observations, a Physics-Aware Action Mapping (PAM) that translates policy outputs into platform-agnostic physical commands, a Two-Phase Progressive Training (TPT) strategy that stabilizes adaptation by separating action-space and observation-space transfer, and a Real-time Deployment Pipeline (RDP) that integrates perception, policy inference, control conversion, and safety monitoring for closed-loop execution. Simulation experiments show that the framework preserves the relative performance ordering of representative RL algorithms across different reward paradigms and validate the contribution of each module. Zero-shot deployment on a full-scale Ford E-Transit achieves success rates of 90%, 80%, and 75% in car-following, obstacle avoidance, and stop-sign interaction scenarios, respectively. To the best of our knowledge, this study is among the first to demonstrate zero-shot closed-loop deployment of a CARLA-trained VLM-guided RL policy on a full-scale real vehicle without any real-world RL training data. The demo video and code are available at:this https URL.