RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

📄 arXiv: 2602.22026v1 📥 PDF

作者: Xiaoyu Xian, Shiao Wang, Xiao Wang, Daxin Tian, Yan Tian

分类: cs.CV, cs.AI

发布日期: 2026-02-25

备注: Accepted by IEEE Transactions on Cognitive and Developmental Systems (IEEE TCDS) 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于RGB-Event超图提示的预训练模型,用于解决GNSS拒止环境下的地铁里程标志识别问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 里程标志识别 RGB-Event融合 事件相机 多模态学习 预训练模型 超图提示 自主定位

📋 核心要点

  1. 传统视觉里程计在复杂地铁环境中面临光照变化和高速运动的挑战,影响里程标志识别的准确性。
  2. 论文提出一种基于预训练RGB OCR模型,并融合事件相机数据的多模态自适应方法,提升识别鲁棒性。
  3. 构建了大规模RGB-Event数据集EvMetro5K,实验结果验证了所提方法在里程标志识别任务中的有效性。

📝 摘要(中文)

本文针对地铁在复杂环境下(光照变化、高速运动、恶劣天气)自主定位中里程标志识别(KMR)的挑战,提出了一种基于预训练RGB OCR基础模型并结合多模态自适应的鲁棒基线方法。该方法利用事件相机在低光照、高速场景和低功耗方面的优势,将其与传统RGB相机结合。此外,作者构建了首个大规模RGB-Event数据集EvMetro5K,包含5599对同步RGB-Event样本,其中4479个用于训练,1120个用于测试。在EvMetro5K和其他常用基准数据集上的大量实验表明,该方法在KMR任务中有效。

🔬 方法详解

问题定义:论文旨在解决GNSS拒止环境下,地铁里程标志识别(KMR)问题。现有方法主要依赖RGB相机,在光照变化剧烈、高速运动以及恶劣天气等复杂场景下表现不佳,导致定位精度下降。因此,如何在复杂环境下实现鲁棒的里程标志识别是本研究要解决的核心问题。

核心思路:论文的核心思路是融合RGB相机和事件相机的数据,利用事件相机对光照变化不敏感、高时间分辨率的特性,弥补RGB相机在复杂环境下的不足。通过多模态自适应,将事件相机的信息有效地融入到预训练的RGB OCR模型中,从而提高里程标志识别的鲁棒性。

技术框架:整体框架包含数据采集、数据预处理、特征提取、多模态融合和里程标志识别等几个主要阶段。首先,同步采集RGB图像和事件数据。然后,对事件数据进行预处理,例如生成事件图像。接着,使用预训练的RGB OCR模型提取RGB图像的特征,并设计网络提取事件数据的特征。最后,通过多模态融合模块将两种特征进行融合,并进行里程标志识别。

关键创新:论文的关键创新在于提出了基于RGB-Event超图提示的多模态融合方法,将事件信息以超图的形式融入到RGB特征中,从而更好地利用事件相机提供的信息。此外,构建了大规模的RGB-Event数据集EvMetro5K,为相关研究提供了数据基础。

关键设计:论文的关键设计包括:1) 事件数据的预处理方式,例如如何将事件数据转换为事件图像;2) 事件特征提取网络的结构设计;3) 多模态融合模块的具体实现方式,例如如何利用超图结构进行特征融合;4) 损失函数的设计,例如如何平衡RGB和事件数据在训练中的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了大规模RGB-Event数据集EvMetro5K,并在此数据集上进行了大量实验。实验结果表明,所提出的方法相比于仅使用RGB数据的基线方法,在里程标志识别的准确率上有显著提升。具体性能数据未知,但摘要强调了该方法在EvMetro5K和其他常用基准数据集上的有效性。

🎯 应用场景

该研究成果可应用于GNSS拒止环境下的地铁、隧道等场景的自主定位与导航。通过融合RGB相机和事件相机的数据,可以提高定位系统的鲁棒性和精度,降低对外部环境的依赖,具有重要的实际应用价值。未来,该技术还可以推广到其他需要高精度定位的领域,例如自动驾驶、机器人导航等。

📄 摘要(原文)

Metro trains often operate in highly complex environments, characterized by illumination variations, high-speed motion, and adverse weather conditions. These factors pose significant challenges for visual perception systems, especially those relying solely on conventional RGB cameras. To tackle these difficulties, we explore the integration of event cameras into the perception system, leveraging their advantages in low-light conditions, high-speed scenarios, and low power consumption. Specifically, we focus on Kilometer Marker Recognition (KMR), a critical task for autonomous metro localization under GNSS-denied conditions. In this context, we propose a robust baseline method based on a pre-trained RGB OCR foundation model, enhanced through multi-modal adaptation. Furthermore, we construct the first large-scale RGB-Event dataset, EvMetro5K, containing 5,599 pairs of synchronized RGB-Event samples, split into 4,479 training and 1,120 testing samples. Extensive experiments on EvMetro5K and other widely used benchmarks demonstrate the effectiveness of our approach for KMR. Both the dataset and source code will be released on https://github.com/Event-AHU/EvMetro5K_benchmark