OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality
作者: Federico Nesti, Gianluca D'Amico, Mauro Marinoni, Giorgio Buttazzo
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
OSDaR-AR:通过多模态增强现实技术提升铁路感知数据集质量
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 增强现实 铁路感知 数据集增强 多模态融合 障碍物检测
📋 核心要点
- 铁路应用中,安全相关的障碍物检测任务缺乏高质量标注数据,限制了深度学习模型的应用。
- 论文提出多模态增强现实框架,将逼真虚拟物体融入真实铁路场景,弥合模拟与现实的差距。
- 利用LiDAR、INS/GNSS数据和Unreal Engine 5,结合分割优化策略,生成更真实的增强数据集OSDaR-AR。
📝 摘要(中文)
深度学习显著提升了智能交通系统的感知能力,但铁路应用在障碍物检测等安全关键任务上仍面临高质量、带标注数据稀缺的问题。逼真的模拟器虽然是一种解决方案,但常受困于“模拟到真实”的差距;简单的图像掩蔽技术又缺乏时空一致性,难以获得外观和尺寸正确的增强单帧和多帧场景。本文提出了一个多模态增强现实框架,旨在通过将逼真的虚拟物体集成到OSDaR23数据集的真实铁路序列中来弥合这一差距。该流程利用Unreal Engine 5的特性,结合LiDAR点云和INS/GNSS数据,确保物体在RGB帧中的精确定位和时间稳定性。本文还提出了一种基于分割的INS/GNSS数据优化策略,以显著提高增强序列的真实感,并通过对比研究证实了这一点。精心设计的增强序列被收集起来,形成了OSDaR-AR,一个旨在支持下一代铁路感知系统开发的公共数据集。
🔬 方法详解
问题定义:铁路场景下的障碍物检测等任务依赖于高质量的标注数据,但真实场景数据的获取和标注成本高昂。现有的基于仿真的数据存在“sim-to-real”的差距,而简单的图像增强方法又缺乏时空一致性,难以满足训练需求。
核心思路:利用增强现实技术,将逼真的虚拟物体无缝地融入到真实的铁路场景图像中,从而生成高质量的增强数据集。通过精确的定位和时间同步,保证虚拟物体与真实环境的融合效果,克服了传统方法的局限性。
技术框架:该框架主要包含以下几个阶段:1) 利用OSDaR23数据集提供的真实铁路场景图像、LiDAR点云和INS/GNSS数据;2) 使用Unreal Engine 5创建逼真的虚拟物体;3) 将虚拟物体根据LiDAR和INS/GNSS数据精确地放置到真实场景中;4) 利用基于分割的优化策略,对INS/GNSS数据进行优化,提高增强序列的真实感;5) 生成最终的增强数据集OSDaR-AR。
关键创新:该方法的核心创新在于多模态信息的融合和基于分割的INS/GNSS数据优化策略。通过融合LiDAR点云和INS/GNSS数据,实现了虚拟物体在真实场景中的精确定位和时间同步。基于分割的优化策略进一步提高了增强序列的真实感,克服了传统增强现实方法中虚拟物体与真实环境融合不自然的问题。
关键设计:INS/GNSS数据的优化策略是关键设计之一。该策略利用图像分割技术,将图像分割成不同的区域,然后根据分割结果对INS/GNSS数据进行调整,从而提高虚拟物体在场景中的定位精度和真实感。具体的参数设置和损失函数等细节在论文中未详细说明。
📊 实验亮点
论文通过对比实验验证了所提出的基于分割的INS/GNSS数据优化策略的有效性,显著提高了增强序列的真实感。虽然论文中没有给出具体的性能数据和提升幅度,但强调了该方法在增强数据真实性方面的优势,为后续研究提供了有价值的参考。
🎯 应用场景
该研究成果可应用于铁路安全领域,例如提升铁路障碍物检测系统的性能,减少事故发生。生成的OSDaR-AR数据集可用于训练和评估各种铁路感知算法,促进相关技术的发展。未来,该方法还可扩展到其他交通领域,如自动驾驶、无人机等。
📄 摘要(原文)
Although deep learning has significantly advanced the perception capabilities of intelligent transportation systems, railway applications continue to suffer from a scarcity of high-quality, annotated data for safety-critical tasks like obstacle detection. While photorealistic simulators offer a solution, they often struggle with the ``sim-to-real" gap; conversely, simple image-masking techniques lack the spatio-temporal coherence required to obtain augmented single- and multi-frame scenes with the correct appearance and dimensions. This paper introduces a multi-modal augmented reality framework designed to bridge this gap by integrating photorealistic virtual objects into real-world railway sequences from the OSDaR23 dataset. Utilizing Unreal Engine 5 features, our pipeline leverages LiDAR point-clouds and INS/GNSS data to ensure accurate object placement and temporal stability across RGB frames. This paper also proposes a segmentation-based refinement strategy for INS/GNSS data to significantly improve the realism of the augmented sequences, as confirmed by the comparative study presented in the paper. Carefully designed augmented sequences are collected to produce OSDaR-AR, a public dataset designed to support the development of next-generation railway perception systems. The dataset is available at the following page:this https URL