OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

作者: Federico Nesti, Gianluca D'Amico, Mauro Marinoni, Giorgio Buttazzo

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

OSDaR-AR：通过多模态增强现实技术提升铁路感知数据集质量

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 增强现实 铁路感知 数据集增强 多模态融合 障碍物检测

📋 核心要点

铁路应用中，安全相关的障碍物检测任务缺乏高质量标注数据，限制了深度学习模型的应用。
论文提出多模态增强现实框架，将逼真虚拟物体融入真实铁路场景，弥合模拟与现实的差距。
利用LiDAR、INS/GNSS数据和Unreal Engine 5，结合分割优化策略，生成更真实的增强数据集OSDaR-AR。

📝 摘要（中文）

深度学习显著提升了智能交通系统的感知能力，但铁路应用在障碍物检测等安全关键任务上仍面临高质量、带标注数据稀缺的问题。逼真的模拟器虽然是一种解决方案，但常受困于“模拟到真实”的差距；简单的图像掩蔽技术又缺乏时空一致性，难以获得外观和尺寸正确的增强单帧和多帧场景。本文提出了一个多模态增强现实框架，旨在通过将逼真的虚拟物体集成到OSDaR23数据集的真实铁路序列中来弥合这一差距。该流程利用Unreal Engine 5的特性，结合LiDAR点云和INS/GNSS数据，确保物体在RGB帧中的精确定位和时间稳定性。本文还提出了一种基于分割的INS/GNSS数据优化策略，以显著提高增强序列的真实感，并通过对比研究证实了这一点。精心设计的增强序列被收集起来，形成了OSDaR-AR，一个旨在支持下一代铁路感知系统开发的公共数据集。

🔬 方法详解

问题定义：铁路场景下的障碍物检测等任务依赖于高质量的标注数据，但真实场景数据的获取和标注成本高昂。现有的基于仿真的数据存在“sim-to-real”的差距，而简单的图像增强方法又缺乏时空一致性，难以满足训练需求。

核心思路：利用增强现实技术，将逼真的虚拟物体无缝地融入到真实的铁路场景图像中，从而生成高质量的增强数据集。通过精确的定位和时间同步，保证虚拟物体与真实环境的融合效果，克服了传统方法的局限性。

技术框架：该框架主要包含以下几个阶段：1) 利用OSDaR23数据集提供的真实铁路场景图像、LiDAR点云和INS/GNSS数据；2) 使用Unreal Engine 5创建逼真的虚拟物体；3) 将虚拟物体根据LiDAR和INS/GNSS数据精确地放置到真实场景中；4) 利用基于分割的优化策略，对INS/GNSS数据进行优化，提高增强序列的真实感；5) 生成最终的增强数据集OSDaR-AR。

关键创新：该方法的核心创新在于多模态信息的融合和基于分割的INS/GNSS数据优化策略。通过融合LiDAR点云和INS/GNSS数据，实现了虚拟物体在真实场景中的精确定位和时间同步。基于分割的优化策略进一步提高了增强序列的真实感，克服了传统增强现实方法中虚拟物体与真实环境融合不自然的问题。

关键设计：INS/GNSS数据的优化策略是关键设计之一。该策略利用图像分割技术，将图像分割成不同的区域，然后根据分割结果对INS/GNSS数据进行调整，从而提高虚拟物体在场景中的定位精度和真实感。具体的参数设置和损失函数等细节在论文中未详细说明。

📊 实验亮点

论文通过对比实验验证了所提出的基于分割的INS/GNSS数据优化策略的有效性，显著提高了增强序列的真实感。虽然论文中没有给出具体的性能数据和提升幅度，但强调了该方法在增强数据真实性方面的优势，为后续研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于铁路安全领域，例如提升铁路障碍物检测系统的性能，减少事故发生。生成的OSDaR-AR数据集可用于训练和评估各种铁路感知算法，促进相关技术的发展。未来，该方法还可扩展到其他交通领域，如自动驾驶、无人机等。

📄 摘要（原文）

Although deep learning has significantly advanced the perception capabilities of intelligent transportation systems, railway applications continue to suffer from a scarcity of high-quality, annotated data for safety-critical tasks like obstacle detection. While photorealistic simulators offer a solution, they often struggle with the ``sim-to-real" gap; conversely, simple image-masking techniques lack the spatio-temporal coherence required to obtain augmented single- and multi-frame scenes with the correct appearance and dimensions. This paper introduces a multi-modal augmented reality framework designed to bridge this gap by integrating photorealistic virtual objects into real-world railway sequences from the OSDaR23 dataset. Utilizing Unreal Engine 5 features, our pipeline leverages LiDAR point-clouds and INS/GNSS data to ensure accurate object placement and temporal stability across RGB frames. This paper also proposes a segmentation-based refinement strategy for INS/GNSS data to significantly improve the realism of the augmented sequences, as confirmed by the comparative study presented in the paper. Carefully designed augmented sequences are collected to produce OSDaR-AR, a public dataset designed to support the development of next-generation railway perception systems. The dataset is available at the following page:this https URL

OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理