OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

📄 arXiv: 2602.22920v1 📥 PDF

作者: Federico Nesti, Gianluca D'Amico, Mauro Marinoni, Giorgio Buttazzo

分类: cs.CV

发布日期: 2026-02-26


💡 一句话要点

OSDaR-AR:通过多模态增强现实技术提升铁路感知数据集质量

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 铁路感知 增强现实 多模态融合 数据集增强 深度学习 障碍物检测

📋 核心要点

  1. 铁路应用缺乏高质量标注数据,限制了深度学习在安全关键任务中的应用。
  2. 利用多模态增强现实框架,将逼真的虚拟物体融入真实铁路场景,弥合“模拟到真实”的差距。
  3. 通过分割优化INS/GNSS数据,提升增强序列的真实感,并发布OSDaR-AR公共数据集。

📝 摘要(中文)

深度学习显著提升了智能交通系统的感知能力,但铁路应用在障碍物检测等安全关键任务上仍然面临高质量、带标注数据稀缺的问题。逼真的模拟器虽然是一种解决方案,但常受困于“模拟到真实”的差距;简单的图像掩蔽技术又缺乏时空一致性,难以获得外观和尺寸正确的增强单帧和多帧场景。本文提出了一种多模态增强现实框架,通过将逼真的虚拟物体集成到OSDaR23数据集的真实铁路序列中来弥合这一差距。该流程利用Unreal Engine 5的特性,结合LiDAR点云和INS/GNSS数据,确保物体在RGB帧中的精确定位和时间稳定性。本文还提出了一种基于分割的INS/GNSS数据优化策略,显著提高了增强序列的真实感,并通过对比研究证实。精心设计的增强序列被用于生成OSDaR-AR,一个旨在支持下一代铁路感知系统开发的公共数据集。

🔬 方法详解

问题定义:铁路应用中,障碍物检测等安全关键任务依赖于高质量的标注数据,但真实场景数据获取成本高昂且存在安全风险。现有的基于模拟器生成数据的方法存在“模拟到真实”的差距,而简单的图像掩蔽技术无法保证时空一致性,难以满足训练需求。

核心思路:利用增强现实技术,将逼真的虚拟物体无缝集成到真实的铁路场景图像中。通过精确的定位和时间同步,保证增强数据的真实性和一致性,从而弥补真实数据不足的缺陷。

技术框架:该框架主要包含以下几个阶段:1) 利用OSDaR23数据集提供的真实铁路场景RGB图像、LiDAR点云和INS/GNSS数据;2) 使用Unreal Engine 5创建逼真的虚拟物体;3) 基于LiDAR点云和INS/GNSS数据,将虚拟物体精确地放置到真实场景中,并保证时间同步;4) 提出一种基于图像分割的INS/GNSS数据优化策略,进一步提高增强序列的真实感。

关键创新:该方法的核心创新在于将多模态数据(RGB图像、LiDAR点云、INS/GNSS数据)与增强现实技术相结合,实现逼真且时空一致的铁路场景数据增强。与传统的图像掩蔽方法相比,该方法能够生成更具真实感和实用性的训练数据。

关键设计:关键设计包括:1) 利用Unreal Engine 5的强大渲染能力,保证虚拟物体的逼真度;2) 基于LiDAR点云和INS/GNSS数据,实现虚拟物体在真实场景中的精确定位和时间同步;3) 提出一种基于图像分割的INS/GNSS数据优化策略,通过分割结果对INS/GNSS数据进行校正,从而提高增强序列的真实感。具体分割算法和优化策略的细节未在摘要中详细描述。

📊 实验亮点

论文通过对比实验验证了所提出的基于分割的INS/GNSS数据优化策略的有效性,显著提高了增强序列的真实感。虽然摘要中没有提供具体的性能数据和提升幅度,但强调了对比研究证实了该策略的有效性。OSDaR-AR数据集的发布将为铁路感知领域的研究提供宝贵的数据资源。

🎯 应用场景

该研究成果可应用于铁路交通领域的障碍物检测、轨道异物识别、铁路沿线环境感知等任务。通过生成高质量的增强数据集,能够有效提升相关深度学习模型的性能和泛化能力,从而提高铁路运输的安全性和可靠性。该方法也可推广到其他智能交通领域,例如自动驾驶、无人机巡检等。

📄 摘要(原文)

Although deep learning has significantly advanced the perception capabilities of intelligent transportation systems, railway applications continue to suffer from a scarcity of high-quality, annotated data for safety-critical tasks like obstacle detection. While photorealistic simulators offer a solution, they often struggle with the ``sim-to-real" gap; conversely, simple image-masking techniques lack the spatio-temporal coherence required to obtain augmented single- and multi-frame scenes with the correct appearance and dimensions. This paper introduces a multi-modal augmented reality framework designed to bridge this gap by integrating photorealistic virtual objects into real-world railway sequences from the OSDaR23 dataset. Utilizing Unreal Engine 5 features, our pipeline leverages LiDAR point-clouds and INS/GNSS data to ensure accurate object placement and temporal stability across RGB frames. This paper also proposes a segmentation-based refinement strategy for INS/GNSS data to significantly improve the realism of the augmented sequences, as confirmed by the comparative study presented in the paper. Carefully designed augmented sequences are collected to produce OSDaR-AR, a public dataset designed to support the development of next-generation railway perception systems. The dataset is available at the following page: https://syndra.retis.santannapisa.it/osdarar.html