OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

作者: Federico Nesti, Gianluca D'Amico, Mauro Marinoni, Giorgio Buttazzo

分类: cs.CV

发布日期: 2026-02-26

💡 一句话要点

OSDaR-AR：通过多模态增强现实技术提升铁路感知数据集质量

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 铁路感知 增强现实 多模态融合 数据集增强 深度学习 障碍物检测

📋 核心要点

铁路应用缺乏高质量标注数据，限制了深度学习在安全关键任务中的应用。
利用多模态增强现实框架，将逼真的虚拟物体融入真实铁路场景，弥合“模拟到真实”的差距。
通过分割优化INS/GNSS数据，提升增强序列的真实感，并发布OSDaR-AR公共数据集。

📝 摘要（中文）

深度学习显著提升了智能交通系统的感知能力，但铁路应用在障碍物检测等安全关键任务上仍然面临高质量、带标注数据稀缺的问题。逼真的模拟器虽然是一种解决方案，但常受困于“模拟到真实”的差距；简单的图像掩蔽技术又缺乏时空一致性，难以获得外观和尺寸正确的增强单帧和多帧场景。本文提出了一种多模态增强现实框架，通过将逼真的虚拟物体集成到OSDaR23数据集的真实铁路序列中来弥合这一差距。该流程利用Unreal Engine 5的特性，结合LiDAR点云和INS/GNSS数据，确保物体在RGB帧中的精确定位和时间稳定性。本文还提出了一种基于分割的INS/GNSS数据优化策略，显著提高了增强序列的真实感，并通过对比研究证实。精心设计的增强序列被用于生成OSDaR-AR，一个旨在支持下一代铁路感知系统开发的公共数据集。

🔬 方法详解

问题定义：铁路应用中，障碍物检测等安全关键任务依赖于高质量的标注数据，但真实场景数据获取成本高昂且存在安全风险。现有的基于模拟器生成数据的方法存在“模拟到真实”的差距，而简单的图像掩蔽技术无法保证时空一致性，难以满足训练需求。

核心思路：利用增强现实技术，将逼真的虚拟物体无缝集成到真实的铁路场景图像中。通过精确的定位和时间同步，保证增强数据的真实性和一致性，从而弥补真实数据不足的缺陷。

技术框架：该框架主要包含以下几个阶段：1) 利用OSDaR23数据集提供的真实铁路场景RGB图像、LiDAR点云和INS/GNSS数据；2) 使用Unreal Engine 5创建逼真的虚拟物体；3) 基于LiDAR点云和INS/GNSS数据，将虚拟物体精确地放置到真实场景中，并保证时间同步；4) 提出一种基于图像分割的INS/GNSS数据优化策略，进一步提高增强序列的真实感。

关键创新：该方法的核心创新在于将多模态数据（RGB图像、LiDAR点云、INS/GNSS数据）与增强现实技术相结合，实现逼真且时空一致的铁路场景数据增强。与传统的图像掩蔽方法相比，该方法能够生成更具真实感和实用性的训练数据。

关键设计：关键设计包括：1) 利用Unreal Engine 5的强大渲染能力，保证虚拟物体的逼真度；2) 基于LiDAR点云和INS/GNSS数据，实现虚拟物体在真实场景中的精确定位和时间同步；3) 提出一种基于图像分割的INS/GNSS数据优化策略，通过分割结果对INS/GNSS数据进行校正，从而提高增强序列的真实感。具体分割算法和优化策略的细节未在摘要中详细描述。

📊 实验亮点

论文通过对比实验验证了所提出的基于分割的INS/GNSS数据优化策略的有效性，显著提高了增强序列的真实感。虽然摘要中没有提供具体的性能数据和提升幅度，但强调了对比研究证实了该策略的有效性。OSDaR-AR数据集的发布将为铁路感知领域的研究提供宝贵的数据资源。

🎯 应用场景

该研究成果可应用于铁路交通领域的障碍物检测、轨道异物识别、铁路沿线环境感知等任务。通过生成高质量的增强数据集，能够有效提升相关深度学习模型的性能和泛化能力，从而提高铁路运输的安全性和可靠性。该方法也可推广到其他智能交通领域，例如自动驾驶、无人机巡检等。

📄 摘要（原文）

Although deep learning has significantly advanced the perception capabilities of intelligent transportation systems, railway applications continue to suffer from a scarcity of high-quality, annotated data for safety-critical tasks like obstacle detection. While photorealistic simulators offer a solution, they often struggle with the ``sim-to-real" gap; conversely, simple image-masking techniques lack the spatio-temporal coherence required to obtain augmented single- and multi-frame scenes with the correct appearance and dimensions. This paper introduces a multi-modal augmented reality framework designed to bridge this gap by integrating photorealistic virtual objects into real-world railway sequences from the OSDaR23 dataset. Utilizing Unreal Engine 5 features, our pipeline leverages LiDAR point-clouds and INS/GNSS data to ensure accurate object placement and temporal stability across RGB frames. This paper also proposes a segmentation-based refinement strategy for INS/GNSS data to significantly improve the realism of the augmented sequences, as confirmed by the comparative study presented in the paper. Carefully designed augmented sequences are collected to produce OSDaR-AR, a public dataset designed to support the development of next-generation railway perception systems. The dataset is available at the following page: https://syndra.retis.santannapisa.it/osdarar.html

OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理