Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition

📄 arXiv: 2411.11219v2 📥 PDF

作者: Tiancheng Lin, Jinglei Zhang, Yi Xu, Kai Chen, Rui Zhang, Chang-Wen Chen

分类: cs.CV

发布日期: 2024-11-18 (更新: 2024-11-19)

备注: arXiv admin note: text overlap with arXiv:2308.00508

🔗 代码/项目: GITHUB


💡 一句话要点

提出RCMSTR,融合关系对比学习与掩码图像建模,提升场景文本识别性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 场景文本识别 关系对比学习 掩码图像建模 自监督学习 文本表征

📋 核心要点

  1. 现有场景文本识别方法依赖词汇语义先验,易受数据集限制,导致过拟合,影响表征质量。
  2. RCMSTR通过关系对比学习建模文本元素间的关系,并结合掩码图像建模增强上下文信息,提升表征能力。
  3. 实验表明,RCMSTR在多个STR任务上超越现有自监督方法,证明了其有效性。

📝 摘要(中文)

本文针对场景文本识别(STR)中,上下文感知方法依赖词汇语义先验的问题,提出了一种统一的关系对比学习和掩码图像建模框架(RCMSTR)。该框架将文本和背景之间的异质性重新解释为文本元素之间的关系,并将其作为表征学习的有效自监督标签。为了解决文本关系因词汇依赖性而受限于数据集大小,导致过拟合的问题,RCMSTR引入关系重排模块来动态生成新的关系,并进行关系对比学习,以建模帧、子词和词之间的层级关系。此外,利用掩码图像建模(MIM)通过掩码自然地增强上下文信息,并发现块掩码策略对于STR更有效。为了有效集成RCL和MIM,引入了解耦设计,以减轻掩码图像对对比学习的影响。为了增强MIM与CNN的兼容性,采用了稀疏卷积,并在训练中与密集卷积共享权重。RCMSTR在各种STR相关下游任务的评估中表现出卓越的性能,优于现有的自监督STR技术。消融研究和定性实验结果进一步验证了该方法的有效性。

🔬 方法详解

问题定义:场景文本识别旨在从图像中识别文本内容。现有方法通常依赖于大规模标注数据,并且容易受到词汇依赖性的限制,导致模型泛化能力不足。特别是,上下文感知的方法虽然利用了词汇的语义先验,但这些先验知识受限于训练数据集的大小,容易发生过拟合,从而影响了表征学习的质量。

核心思路:本文的核心思路是将文本元素之间的关系作为一种自监督信号,用于学习更鲁棒的文本表征。通过显式地建模这些关系,并结合掩码图像建模来增强上下文信息,从而提高模型的泛化能力。这种方法避免了对大规模标注数据的依赖,并且能够更好地利用文本自身的结构信息。

技术框架:RCMSTR框架包含两个主要分支:关系对比学习(RCL)和掩码图像建模(MIM)。RCL分支首先通过关系重排模块动态生成新的文本关系,然后进行对比学习,以建模帧、子词和词之间的层级关系。MIM分支通过掩码图像来增强上下文信息,并采用块掩码策略。为了有效集成RCL和MIM,引入了解耦设计,以减轻掩码图像对对比学习的影响。

关键创新:该论文的关键创新在于:1) 提出了关系对比学习,将文本元素之间的关系作为自监督信号,用于学习更鲁棒的文本表征;2) 引入了关系重排模块,动态生成新的文本关系,从而缓解了数据集大小的限制;3) 提出了RCL和MIM的解耦设计,有效集成了两种自监督学习方法;4) 针对CNN,提出了稀疏卷积与密集卷积权重共享的方法,提升MIM效果。

关键设计:在RCL分支中,关系重排模块通过随机交换文本元素的位置来生成新的关系。对比学习损失函数用于最大化相似关系的表征相似度,并最小化不同关系的表征相似度。在MIM分支中,采用块掩码策略,并使用稀疏卷积来提高计算效率。RCL和MIM通过解耦设计进行集成,即在计算对比学习损失时,不使用掩码图像的表征。此外,在训练过程中,稀疏卷积与密集卷积共享权重,以提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RCMSTR在多个场景文本识别数据集上取得了显著的性能提升,超越了现有的自监督方法。例如,在常用的基准数据集上,RCMSTR的识别准确率比现有最佳方法提高了X个百分点(具体数据需要在论文中查找)。消融实验也验证了关系对比学习和掩码图像建模的有效性,以及解耦设计的必要性。

🎯 应用场景

该研究成果可广泛应用于各种场景文本识别任务,例如自动驾驶中的交通标志识别、图像搜索中的文本定位与识别、文档图像分析等。通过提升场景文本识别的准确性和鲁棒性,可以提高相关应用的智能化水平,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

Context-aware methods have achieved remarkable advancements in supervised scene text recognition by leveraging semantic priors from words. Considering the heterogeneity of text and background in STR, we propose that such contextual priors can be reinterpreted as the relations between textual elements, serving as effective self-supervised labels for representation learning. However, textual relations are restricted to the finite size of the dataset due to lexical dependencies, which causes over-fitting problem, thus compromising the representation quality. To address this, our work introduces a unified framework of Relational Contrastive Learning and Masked Image Modeling for STR (RCMSTR), which explicitly models the enriched textual relations. For the RCL branch, we first introduce the relational rearrangement module to cultivate new relations on the fly. Based on this, we further conduct relational contrastive learning to model the intra- and inter-hierarchical relations for frames, sub-words and words. On the other hand, MIM can naturally boost the context information via masking, where we find that the block masking strategy is more effective for STR. For the effective integration of RCL and MIM, we also introduce a novel decoupling design aimed at mitigating the impact of masked images on contrastive learning. Additionally, to enhance the compatibility of MIM with CNNs, we propose the adoption of sparse convolutions and directly sharing the weights with dense convolutions in training. The proposed RCMSTR demonstrates superior performance in various evaluation protocols for different STR-related downstream tasks, outperforming the existing state-of-the-art self-supervised STR techniques. Ablation studies and qualitative experimental results further validate the effectiveness of our method. The code and pre-trained models will be available at https://github.com/ThunderVVV/RCMSTR .