CARLA2Real: a tool for reducing the sim2real appearance gap in CARLA simulator

📄 arXiv: 2410.18238v4 📥 PDF

作者: Stefanos Pasios, Nikos Nikolaidis

分类: cs.CV

发布日期: 2024-10-23 (更新: 2025-08-23)

备注: 22 pages

期刊: IEEE Transactions on Intelligent Transportation Systems (2025)

DOI: 10.1109/TITS.2025.3597010

🔗 代码/项目: GITHUB


💡 一句话要点

CARLA2Real:一种降低CARLA模拟器中Sim2Real外观差异的工具

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: Sim2Real CARLA模拟器 图像到图像转换 自动驾驶 合成数据 领域自适应 语义分割

📋 核心要点

  1. 现有模拟器在图形逼真度上仍与真实世界存在差距,限制了在模拟环境中训练的自主系统在现实世界的部署。
  2. CARLA2Real通过图像到图像的转换,增强CARLA模拟器的输出,使其视觉风格更接近真实世界数据集。
  3. 实验表明,使用CARLA2Real增强的合成数据训练的模型,在特征提取和语义分割任务上表现更好,有效缩小了Sim2Real差距。

📝 摘要(中文)

模拟器对于自动驾驶汽车、自主机器人和无人机等自主系统的研究至关重要。尽管在图形逼真度等各个模拟方面取得了显著进展,但虚拟环境和真实世界环境之间仍然存在明显的差距。由于最终目标是在现实世界中部署自主系统,因此缩小Sim2Real差距至关重要。本文采用了一种最先进的方法来增强模拟数据的照片真实感,使其与真实世界数据集的视觉特征对齐。基于此,我们开发了CARLA2Real,这是一个易于使用、公开可用的工具(插件),用于广泛使用的开源CARLA模拟器。该工具以接近实时的速度增强CARLA的输出,达到13 FPS的帧速率,将其转换为真实世界数据集(如Cityscapes、KITTI和Mapillary Vistas)的视觉风格和真实感。通过使用所提出的工具,我们从模拟器和增强模型输出生成了合成数据集,包括用于自动驾驶相关任务的相应ground truth标注。然后,我们进行了一系列实验,以评估所提出的方法在增强的合成数据上训练时对特征提取和语义分割方法的影响。结果表明,Sim2Real外观差距是显著的,并且确实可以通过所提出的方法来缩小。还提供了与最先进的图像到图像翻译方法的比较。该工具、预训练模型和相关数据可在https://github.com/stefanos50/CARLA2Real下载。

🔬 方法详解

问题定义:论文旨在解决CARLA模拟器生成的图像与真实世界图像之间存在的视觉差异(Sim2Real gap)问题。现有方法难以生成足够逼真的合成数据,导致在模拟环境中训练的自动驾驶模型在真实场景中性能下降。

核心思路:论文的核心思路是利用图像到图像的转换技术,将CARLA模拟器生成的图像转换为具有真实世界视觉风格的图像。通过这种方式,可以生成更逼真的合成数据,从而提高在模拟环境中训练的自动驾驶模型在真实场景中的泛化能力。

技术框架:CARLA2Real是一个CARLA模拟器的插件,它使用预训练的图像到图像转换模型来增强模拟图像的真实感。该插件可以实时处理CARLA的输出,并将其转换为具有真实世界视觉风格的图像。整体流程包括:1. 从CARLA模拟器获取图像;2. 使用预训练的图像到图像转换模型处理图像;3. 输出增强后的图像。

关键创新:该论文的关键创新在于开发了一个易于使用、公开可用的CARLA插件,该插件能够以接近实时的速度增强模拟图像的真实感。此外,该论文还提供了一组预训练的图像到图像转换模型,这些模型针对不同的真实世界数据集进行了优化。

关键设计:论文使用了基于GAN的图像到图像转换模型,并针对Cityscapes、KITTI和Mapillary Vistas等数据集进行了训练。该模型的设计目标是在保持图像内容不变的同时,改变图像的视觉风格。为了实现这一目标,论文使用了对抗损失、内容损失和风格损失等多种损失函数。具体的网络结构和参数设置在论文中没有详细说明,需要参考相关图像到图像转换的文献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用CARLA2Real增强的合成数据训练的语义分割模型,在真实世界数据集上表现更好,证明了该方法能够有效缩小Sim2Real差距。与state-of-the-art的图像到图像翻译方法相比,CARLA2Real在生成逼真图像的同时,保持了较高的帧率(13 FPS)。

🎯 应用场景

CARLA2Real可应用于自动驾驶、机器人和无人机等领域,通过生成更逼真的合成数据,降低Sim2Real差距,提高在模拟环境中训练的自主系统在真实世界的性能。该工具可以加速自动驾驶算法的开发和测试,降低开发成本,并提高安全性。

📄 摘要(原文)

Simulators are indispensable for research in autonomous systems such as self-driving cars, autonomous robots, and drones. Despite significant progress in various simulation aspects, such as graphical realism, an evident gap persists between the virtual and real-world environments. Since the ultimate goal is to deploy the autonomous systems in the real world, reducing the sim2real gap is of utmost importance. In this paper, we employ a state-of-the-art approach to enhance the photorealism of simulated data, aligning them with the visual characteristics of real-world datasets. Based on this, we developed CARLA2Real, an easy-to-use, publicly available tool (plug-in) for the widely used and open-source CARLA simulator. This tool enhances the output of CARLA in near real-time, achieving a frame rate of 13 FPS, translating it to the visual style and realism of real-world datasets such as Cityscapes, KITTI, and Mapillary Vistas. By employing the proposed tool, we generated synthetic datasets from both the simulator and the enhancement model outputs, including their corresponding ground truth annotations for tasks related to autonomous driving. Then, we performed a number of experiments to evaluate the impact of the proposed approach on feature extraction and semantic segmentation methods when trained on the enhanced synthetic data. The results demonstrate that the sim2real appearance gap is significant and can indeed be reduced by the introduced approach. Comparisons with a state-of-the-art image-to-image translation approach are also provided. The tool, pre-trained models, and associated data for this work are available for download at: https://github.com/stefanos50/CARLA2Real.