ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning
作者: Xiao Wang, Jingtao Jiang, Qiang Chen, Lan Chen, Lin Zhu, Yaowei Wang, Yonghong Tian, Jin Tang
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-07-02
备注: A Strong Baseline for Reasoning based Event Stream Scene Text Recognition
🔗 代码/项目: GITHUB
💡 一句话要点
提出ESTR-CoT框架,利用思维链推理提升事件流场景文本识别的准确性和可解释性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事件流 场景文本识别 思维链 大语言模型 可解释性 视觉语言对齐 Q-former
📋 核心要点
- 现有事件流场景文本识别方法在可解释性和上下文逻辑推理方面存在不足,限制了其性能。
- ESTR-CoT框架利用思维链推理,结合视觉编码器和大型语言模型,提升识别准确性和可解释性。
- 实验结果表明,该框架在多个事件流STR基准数据集上表现出色,验证了其有效性。
📝 摘要(中文)
本文提出了一种基于思维链推理的事件流场景文本识别框架ESTR-CoT。该框架利用视觉编码器EVA-CLIP(ViT-G/14)将输入事件流转换为tokens,并使用Llama tokenizer编码生成提示。Q-former用于将视觉token与预训练的大型语言模型Vicuna-7B对齐,并同时输出答案和思维链(CoT)推理过程。该框架可以通过监督微调进行端到端优化。此外,本文还提出了一个大规模的CoT数据集,通过生成、润色和专家验证三个阶段来训练框架。该数据集为后续基于推理的大模型发展提供了坚实的数据基础。在EventSTR、WordArt和IC15三个事件流STR基准数据集上的大量实验验证了所提出框架的有效性和可解释性。
🔬 方法详解
问题定义:事件流场景文本识别旨在从事件相机捕获的事件流数据中识别文本。现有方法,如端到端编码器-解码器框架或大型语言模型,在低光照、快速运动等极端场景下表现不佳,并且缺乏可解释性和上下文逻辑推理能力。
核心思路:本文的核心思路是引入思维链(Chain-of-Thought, CoT)推理,使模型在生成最终答案之前,先进行一系列中间推理步骤,从而提高识别的准确性和可解释性。通过模仿人类的思考过程,模型能够更好地理解上下文信息,并做出更合理的判断。
技术框架:ESTR-CoT框架主要包含以下几个模块:1) 视觉编码器EVA-CLIP (ViT-G/14):将事件流数据转换为视觉tokens。2) Llama tokenizer:编码生成提示。3) Q-former:将视觉tokens与预训练的大型语言模型Vicuna-7B对齐。4) Vicuna-7B:基于对齐的tokens和提示,生成答案和思维链推理过程。整个框架采用端到端的方式进行训练。
关键创新:该方法最重要的创新点在于将思维链推理引入到事件流场景文本识别任务中。与以往直接预测结果的方法不同,ESTR-CoT能够生成中间推理步骤,从而提高模型的可解释性和推理能力。此外,提出的大规模CoT数据集也为训练推理型大模型提供了数据基础。
关键设计:在数据方面,构建了一个包含生成、润色和专家验证三个阶段的大规模CoT数据集。在模型方面,使用Q-former作为桥梁,将视觉特征与语言模型的语义空间对齐。损失函数采用标准的交叉熵损失,对答案和思维链推理过程进行监督。
🖼️ 关键图片
📊 实验亮点
ESTR-CoT框架在EventSTR、WordArt和IC15三个事件流STR基准数据集上进行了广泛的实验验证。实验结果表明,该框架在准确性和可解释性方面均优于现有方法。具体性能数据和对比基线将在论文中详细展示。
🎯 应用场景
该研究成果可应用于智能交通、安防监控、机器人导航等领域。在这些场景中,事件相机能够提供高动态范围和低延迟的数据,而ESTR-CoT框架能够准确、可靠地识别场景中的文本信息,例如交通标志、路牌、商品标签等,从而提升系统的智能化水平。
📄 摘要(原文)
Event stream based scene text recognition is a newly arising research topic in recent years which performs better than the widely used RGB cameras in extremely challenging scenarios, especially the low illumination, fast motion. Existing works either adopt end-to-end encoder-decoder framework or large language models for enhanced recognition, however, they are still limited by the challenges of insufficient interpretability and weak contextual logical reasoning. In this work, we propose a novel chain-of-thought reasoning based event stream scene text recognition framework, termed ESTR-CoT. Specifically, we first adopt the vision encoder EVA-CLIP (ViT-G/14) to transform the input event stream into tokens and utilize a Llama tokenizer to encode the given generation prompt. A Q-former is used to align the vision token to the pre-trained large language model Vicuna-7B and output both the answer and chain-of-thought (CoT) reasoning process simultaneously. Our framework can be optimized using supervised fine-tuning in an end-to-end manner. In addition, we also propose a large-scale CoT dataset to train our framework via a three stage processing (i.e., generation, polish, and expert verification). This dataset provides a solid data foundation for the development of subsequent reasoning-based large models. Extensive experiments on three event stream STR benchmark datasets (i.e., EventSTR, WordArt, IC15) fully validated the effectiveness and interpretability of our proposed framework. The source code and pre-trained models will be released on https://github.com/Event-AHU/ESTR-CoT.