Zero-Shot MARL Benchmark in the Cyber-Physical Mobility Lab

作者: Julius Beerwerth, Jianye Xu, Simon Schäfer, Fynn Belderink, Bassam Alrifaee

分类: cs.RO, eess.SY

发布日期: 2026-01-23

💡 一句话要点

提出基于CPM Lab的零样本MARL迁移学习基准测试平台

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 零样本迁移 自动驾驶 网络物理系统 基准测试 模拟到真实 数字孪生

📋 核心要点

现有MARL策略在模拟环境训练后，难以直接应用于真实物理系统，存在性能下降问题。
论文提出基于CPM Lab的基准测试平台，实现仿真、数字孪生和物理测试的无缝集成，用于评估零样本迁移性能。
通过SigmaRL策略在不同环境的部署，分析了架构差异和环境真实性对性能的影响，为MARL策略的sim-to-real迁移提供参考。

📝 摘要（中文）

本文提出了一个可复现的基准测试平台，用于评估互联自动驾驶车辆(CAVs)多智能体强化学习(MARL)策略的模拟到真实世界的迁移能力。该平台基于网络物理移动实验室(CPM Lab)，集成了仿真、高保真数字孪生和物理测试平台，从而能够对MARL运动规划策略进行结构化的零样本评估。通过在所有三个领域部署SigmaRL训练的策略，揭示了两种互补的性能下降来源：仿真和硬件控制堆栈之间的架构差异，以及由环境真实感增加引起的模拟到真实世界的差距。该开源设置支持在现实、可复现的条件下系统地分析MARL中的模拟到真实世界的挑战。

🔬 方法详解

问题定义：现有MARL算法在仿真环境中训练的策略，直接部署到真实物理系统中时，性能往往会显著下降。这主要是由于仿真环境与真实环境存在差异，包括传感器噪声、执行器精度、环境动态性等。此外，控制堆栈的架构差异也会影响策略的迁移效果。因此，如何评估和提升MARL策略的sim-to-real迁移能力是一个重要的研究问题。

核心思路：本文的核心思路是构建一个可复现的基准测试平台，该平台能够模拟真实物理环境，并提供高保真数字孪生和物理测试平台，从而能够对MARL策略进行结构化的零样本评估。通过在不同环境中部署相同的策略，可以分析性能下降的原因，并为改进MARL算法提供指导。

技术框架：该平台基于Cyber-Physical Mobility Lab (CPM Lab)，包含三个主要组成部分：仿真环境、数字孪生和物理测试平台。仿真环境使用SUMO等交通仿真器，模拟车辆的运动和交互。数字孪生是真实物理系统的虚拟副本，能够实时反映物理系统的状态。物理测试平台包含真实的车辆和传感器，用于验证MARL策略的实际性能。MARL策略在仿真环境中训练，然后直接部署到数字孪生和物理测试平台进行评估。

关键创新：该平台的主要创新在于其集成了仿真、数字孪生和物理测试平台，从而能够对MARL策略进行全面的评估。此外，该平台是开源的，可以方便其他研究者使用和扩展。通过在不同环境中部署相同的策略，可以系统地分析性能下降的原因，并为改进MARL算法提供指导。

关键设计：论文使用SigmaRL算法训练MARL策略，该算法是一种基于actor-critic框架的算法。策略网络的输入是车辆的状态信息，包括位置、速度、加速度等。策略网络的输出是车辆的控制指令，包括油门和刹车。损失函数包括actor损失和critic损失，用于优化策略网络的参数。在仿真环境中，使用随机噪声模拟传感器噪声和执行器误差。在数字孪生和物理测试平台中，使用真实传感器数据和执行器控制指令。

📊 实验亮点

实验结果表明，SigmaRL训练的策略在仿真环境中表现良好，但在数字孪生和物理测试平台中性能有所下降。性能下降的主要原因是仿真和硬件控制堆栈之间的架构差异，以及由环境真实感增加引起的模拟到真实世界的差距。该研究结果为改进MARL算法的sim-to-real迁移能力提供了重要的参考。

🎯 应用场景

该研究成果可应用于自动驾驶、智能交通等领域。通过该基准测试平台，可以系统地评估和改进MARL策略的sim-to-real迁移能力，从而加速自动驾驶技术的落地应用。此外，该平台还可以用于研究不同MARL算法的性能，并为算法选择提供参考。

📄 摘要（原文）

We present a reproducible benchmark for evaluating sim-to-real transfer of Multi-Agent Reinforcement Learning (MARL) policies for Connected and Automated Vehicles (CAVs). The platform, based on the Cyber-Physical Mobility Lab (CPM Lab) [1], integrates simulation, a high-fidelity digital twin, and a physical testbed, enabling structured zero-shot evaluation of MARL motion-planning policies. We demonstrate its use by deploying a SigmaRL-trained policy [2] across all three domains, revealing two complementary sources of performance degradation: architectural differences between simulation and hardware control stacks, and the sim-to-real gap induced by increasing environmental realism. The open-source setup enables systematic analysis of sim-to-real challenges in MARL under realistic, reproducible conditions.

Zero-Shot MARL Benchmark in the Cyber-Physical Mobility Lab

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理