EventSTR: A Benchmark Dataset and Baselines for Event Stream based Scene Text Recognition

📄 arXiv: 2502.09020v1 📥 PDF

作者: Xiao Wang, Jingtao Jiang, Dong Li, Futian Wang, Lin Zhu, Yaowei Wang, Yongyong Tian, Jin Tang

分类: cs.CV, cs.AI

发布日期: 2025-02-13

备注: In Peer Review

🔗 代码/项目: GITHUB


💡 一句话要点

提出EventSTR数据集与SimC-ESTR框架,用于事件流数据驱动的场景文本识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件相机 场景文本识别 事件流数据 深度学习 大型语言模型

📋 核心要点

  1. 传统RGB相机在低光照、运动模糊等场景下表现不佳,限制了场景文本识别(STR)的应用。
  2. 提出SimC-ESTR框架,利用事件相机数据,结合视觉编码器、Q-former和大型语言模型进行文本识别。
  3. 在EventSTR数据集上进行了大量实验,验证了SimC-ESTR框架的有效性,并提供了基准测试结果。

📝 摘要(中文)

本文针对传统RGB相机在低光照、运动模糊和复杂背景下场景文本识别的局限性,提出了基于仿生事件相机的场景文本识别方法。为此,我们构建了一个大规模基准数据集EventSTR,包含9,928个高清(1280 * 720)事件样本,涵盖中英文文本。同时,我们对多种STR算法进行了基准测试,为未来研究提供对比。此外,我们提出了一个新的基于事件的场景文本识别框架SimC-ESTR。该框架首先使用视觉编码器提取事件特征,然后使用Q-former模块将其投影为tokens。更重要的是,我们提出了一种基于记忆机制的视觉tokens增强方法,然后将其输入到大型语言模型中。在大型语言模型中嵌入了一种基于相似性的错误校正机制,以根据上下文信息从根本上纠正潜在的微小错误。在新提出的EventSTR数据集和两个模拟STR数据集上的大量实验充分证明了我们提出的模型的有效性。我们相信该数据集和算法模型能够创新性地提出基于事件的STR任务,并有望加速事件相机在各个行业的应用。源代码和预训练模型将在https://github.com/Event-AHU/EventSTR上发布。

🔬 方法详解

问题定义:论文旨在解决在具有挑战性的光照条件、运动模糊和复杂背景下,传统RGB相机在场景文本识别(STR)任务中的局限性。现有方法依赖于RGB图像,容易受到这些因素的影响,导致识别精度下降。

核心思路:论文的核心思路是利用事件相机捕捉的事件流数据进行场景文本识别。事件相机对光照变化敏感,能有效应对低光照和运动模糊等问题。通过设计合适的网络结构,将事件流数据转化为可供大型语言模型处理的tokens,并利用上下文信息进行错误校正,从而提高识别精度。

技术框架:SimC-ESTR框架包含以下主要模块:1) 视觉编码器:用于提取事件流数据的特征。2) Q-former模块:将提取的特征投影为tokens,以便输入到大型语言模型中。3) 记忆增强模块:基于记忆机制增强视觉tokens,提升特征表达能力。4) 大型语言模型:利用上下文信息进行文本识别。5) 相似性错误校正模块:在大型语言模型中嵌入,用于纠正潜在的微小错误。

关键创新:论文的关键创新在于:1) 提出了基于事件相机的场景文本识别任务,并构建了大规模基准数据集EventSTR。2) 设计了SimC-ESTR框架,将事件流数据与大型语言模型相结合,实现了高效的文本识别。3) 提出了基于记忆机制的视觉tokens增强方法和基于相似性的错误校正机制,进一步提升了识别精度。

关键设计:视觉编码器采用常见的卷积神经网络结构,例如ResNet。Q-former模块采用Transformer结构,用于学习事件特征与文本tokens之间的映射关系。记忆增强模块维护一个记忆库,存储历史事件特征,用于增强当前tokens的表达能力。相似性错误校正模块计算预测文本与记忆库中相似文本的相似度,用于纠正预测错误。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在自建的EventSTR数据集上进行了实验,结果表明,所提出的SimC-ESTR框架在事件流场景文本识别任务上取得了显著的性能提升。与现有基于RGB图像的STR算法相比,SimC-ESTR在低光照和运动模糊等场景下表现出更强的鲁棒性。此外,在两个模拟数据集上的实验也验证了SimC-ESTR的有效性。

🎯 应用场景

该研究成果可应用于智能交通、安防监控、工业自动化等领域。例如,在智能交通中,可以利用事件相机识别车辆牌照和路标,提高交通管理效率。在安防监控中,可以识别监控视频中的文字信息,辅助案件侦破。在工业自动化中,可以识别产品上的文字标签,实现自动化生产管理。

📄 摘要(原文)

Mainstream Scene Text Recognition (STR) algorithms are developed based on RGB cameras which are sensitive to challenging factors such as low illumination, motion blur, and cluttered backgrounds. In this paper, we propose to recognize the scene text using bio-inspired event cameras by collecting and annotating a large-scale benchmark dataset, termed EventSTR. It contains 9,928 high-definition (1280 * 720) event samples and involves both Chinese and English characters. We also benchmark multiple STR algorithms as the baselines for future works to compare. In addition, we propose a new event-based scene text recognition framework, termed SimC-ESTR. It first extracts the event features using a visual encoder and projects them into tokens using a Q-former module. More importantly, we propose to augment the vision tokens based on a memory mechanism before feeding into the large language models. A similarity-based error correction mechanism is embedded within the large language model to correct potential minor errors fundamentally based on contextual information. Extensive experiments on the newly proposed EventSTR dataset and two simulation STR datasets fully demonstrate the effectiveness of our proposed model. We believe that the dataset and algorithmic model can innovatively propose an event-based STR task and are expected to accelerate the application of event cameras in various industries. The source code and pre-trained models will be released on https://github.com/Event-AHU/EventSTR