Zero-Shot MARL Benchmark in the Cyber-Physical Mobility Lab

📄 arXiv: 2601.16578v1 📥 PDF

作者: Julius Beerwerth, Jianye Xu, Simon Schäfer, Fynn Belderink, Bassam Alrifaee

分类: cs.RO, eess.SY

发布日期: 2026-01-23


💡 一句话要点

提出基于CPM Lab的零样本MARL迁移学习基准测试平台

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 零样本迁移 自动驾驶 网络物理系统 基准测试 模拟到真实 数字孪生

📋 核心要点

  1. 现有MARL策略在模拟环境训练后,难以直接应用于真实物理系统,存在性能下降问题。
  2. 论文提出基于CPM Lab的基准测试平台,实现仿真、数字孪生和物理测试的无缝集成,用于评估零样本迁移性能。
  3. 通过SigmaRL策略在不同环境的部署,分析了架构差异和环境真实性对性能的影响,为MARL策略的sim-to-real迁移提供参考。

📝 摘要(中文)

本文提出了一个可复现的基准测试平台,用于评估互联自动驾驶车辆(CAVs)多智能体强化学习(MARL)策略的模拟到真实世界的迁移能力。该平台基于网络物理移动实验室(CPM Lab),集成了仿真、高保真数字孪生和物理测试平台,从而能够对MARL运动规划策略进行结构化的零样本评估。通过在所有三个领域部署SigmaRL训练的策略,揭示了两种互补的性能下降来源:仿真和硬件控制堆栈之间的架构差异,以及由环境真实感增加引起的模拟到真实世界的差距。该开源设置支持在现实、可复现的条件下系统地分析MARL中的模拟到真实世界的挑战。

🔬 方法详解

问题定义:现有MARL算法在仿真环境中训练的策略,直接部署到真实物理系统中时,性能往往会显著下降。这主要是由于仿真环境与真实环境存在差异,包括传感器噪声、执行器精度、环境动态性等。此外,控制堆栈的架构差异也会影响策略的迁移效果。因此,如何评估和提升MARL策略的sim-to-real迁移能力是一个重要的研究问题。

核心思路:本文的核心思路是构建一个可复现的基准测试平台,该平台能够模拟真实物理环境,并提供高保真数字孪生和物理测试平台,从而能够对MARL策略进行结构化的零样本评估。通过在不同环境中部署相同的策略,可以分析性能下降的原因,并为改进MARL算法提供指导。

技术框架:该平台基于Cyber-Physical Mobility Lab (CPM Lab),包含三个主要组成部分:仿真环境、数字孪生和物理测试平台。仿真环境使用SUMO等交通仿真器,模拟车辆的运动和交互。数字孪生是真实物理系统的虚拟副本,能够实时反映物理系统的状态。物理测试平台包含真实的车辆和传感器,用于验证MARL策略的实际性能。MARL策略在仿真环境中训练,然后直接部署到数字孪生和物理测试平台进行评估。

关键创新:该平台的主要创新在于其集成了仿真、数字孪生和物理测试平台,从而能够对MARL策略进行全面的评估。此外,该平台是开源的,可以方便其他研究者使用和扩展。通过在不同环境中部署相同的策略,可以系统地分析性能下降的原因,并为改进MARL算法提供指导。

关键设计:论文使用SigmaRL算法训练MARL策略,该算法是一种基于actor-critic框架的算法。策略网络的输入是车辆的状态信息,包括位置、速度、加速度等。策略网络的输出是车辆的控制指令,包括油门和刹车。损失函数包括actor损失和critic损失,用于优化策略网络的参数。在仿真环境中,使用随机噪声模拟传感器噪声和执行器误差。在数字孪生和物理测试平台中,使用真实传感器数据和执行器控制指令。

📊 实验亮点

实验结果表明,SigmaRL训练的策略在仿真环境中表现良好,但在数字孪生和物理测试平台中性能有所下降。性能下降的主要原因是仿真和硬件控制堆栈之间的架构差异,以及由环境真实感增加引起的模拟到真实世界的差距。该研究结果为改进MARL算法的sim-to-real迁移能力提供了重要的参考。

🎯 应用场景

该研究成果可应用于自动驾驶、智能交通等领域。通过该基准测试平台,可以系统地评估和改进MARL策略的sim-to-real迁移能力,从而加速自动驾驶技术的落地应用。此外,该平台还可以用于研究不同MARL算法的性能,并为算法选择提供参考。

📄 摘要(原文)

We present a reproducible benchmark for evaluating sim-to-real transfer of Multi-Agent Reinforcement Learning (MARL) policies for Connected and Automated Vehicles (CAVs). The platform, based on the Cyber-Physical Mobility Lab (CPM Lab) [1], integrates simulation, a high-fidelity digital twin, and a physical testbed, enabling structured zero-shot evaluation of MARL motion-planning policies. We demonstrate its use by deploying a SigmaRL-trained policy [2] across all three domains, revealing two complementary sources of performance degradation: architectural differences between simulation and hardware control stacks, and the sim-to-real gap induced by increasing environmental realism. The open-source setup enables systematic analysis of sim-to-real challenges in MARL under realistic, reproducible conditions.