Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition

📄 arXiv: 2405.05841v2 📥 PDF

作者: Zuan Gao, Yuxin Wang, Yadong Qu, Boqiang Zhang, Zixiao Wang, Jianjun Xu, Hongtao Xie

分类: cs.CV

发布日期: 2024-05-09 (更新: 2024-05-11)

备注: Accepted to IJCAI2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出对称叠加建模的自监督预训练方法,提升场景文本识别性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 场景文本识别 自监督学习 预训练 对称叠加建模 语言信息建模

📋 核心要点

  1. 现有文本识别自监督预训练方法侧重局部视觉表征,忽略了文本图像中至关重要的语言信息建模。
  2. 提出对称叠加建模(SSM),通过重建对称叠加输入中的像素和特征信号,同时捕获字符特征和语言信息。
  3. 实验表明SSM在多个文本识别基准上有效,Union14M基准上平均性能提升4.1%,达到新的SOTA。

📝 摘要(中文)

本文提出了一种用于文本识别的自监督预训练方法,称为对称叠加建模(SSM),旨在减少对大量标注真实数据的依赖。以往的研究主要关注局部视觉表征,例如掩码图像建模或序列对比学习,但忽略了文本图像中的语言信息建模,而这对于文本识别至关重要。SSM的目标是从对称叠加的输入中重建方向特定的像素和特征信号,从而同时捕获局部字符特征和视觉空间中的语言信息。具体来说,我们将原始图像与其反转视图相加,创建对称叠加的输入。在像素级别,我们重建原始图像和反转图像,以捕获字符形状和纹理级别的语言上下文。在特征级别,我们重建具有不同增强的相同原始图像和反转图像的特征,以建模语义级别的语言上下文和局部字符判别力。双层重建有助于从视觉纹理和特征语义的角度理解字符形状和语言信息。在各种文本识别基准上的实验表明了SSM的有效性和通用性,在Union14M基准上平均性能提升4.1%,平均单词准确率达到86.6%的新SOTA。

🔬 方法详解

问题定义:现有的场景文本识别方法依赖于大量的标注数据,而获取这些数据成本高昂。自监督预训练旨在利用无标注数据来提升模型性能,但现有方法主要关注局部视觉特征的学习,忽略了文本图像中蕴含的语言信息,这对于准确识别文本至关重要。现有方法无法有效建模字符形状和语言上下文之间的关系。

核心思路:本文的核心思路是通过对称叠加建模(SSM)来同时学习局部字符特征和全局语言信息。具体来说,将原始图像与其反转图像进行叠加,形成一种扰动后的输入,迫使模型从这种扰动中恢复原始信息。这种方式能够让模型学习到字符的形状信息,以及字符之间的上下文关系,从而提升文本识别的准确性。

技术框架:SSM包含像素级重建和特征级重建两个主要模块。首先,将原始图像与其水平翻转图像进行叠加,得到对称叠加的输入。然后,在像素级别,模型需要从叠加后的图像中重建原始图像和翻转图像,从而学习字符的形状和纹理信息。同时,在特征级别,模型对原始图像和翻转图像提取特征,并进行重建,从而学习语义级别的语言上下文和局部字符判别力。整个框架通过双层重建,促进模型理解字符形状和语言信息。

关键创新:SSM的关键创新在于其对称叠加建模的思想。通过将原始图像与其反转图像叠加,创造了一种特殊的自监督学习任务,迫使模型同时学习字符的局部特征和全局语言信息。与传统的掩码图像建模或对比学习方法不同,SSM能够更有效地建模文本图像中的语言上下文,从而提升文本识别的性能。

关键设计:在像素级重建中,使用L1损失函数来衡量重建图像与原始图像之间的差异。在特征级重建中,使用余弦相似度损失函数来衡量重建特征与原始特征之间的相似度。网络结构方面,可以使用常见的卷积神经网络或Transformer网络作为 backbone。作者在实验中使用了ResNet作为特征提取器。此外,数据增强策略也至关重要,作者使用了随机裁剪、旋转、缩放等增强方法来增加模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SSM在多个文本识别基准上取得了显著的性能提升。例如,在Union14M数据集上,SSM的平均单词准确率达到了86.6%,相比之前的SOTA方法提升了4.1%。此外,SSM在其他数据集上也表现出良好的泛化能力,证明了其有效性和通用性。

🎯 应用场景

该研究成果可广泛应用于各种场景文本识别任务,例如自动驾驶中的路标识别、图像搜索中的文本内容提取、文档图像分析等。通过提升文本识别的准确率,可以提高相关应用的智能化水平和用户体验,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

In text recognition, self-supervised pre-training emerges as a good solution to reduce dependence on expansive annotated real data. Previous studies primarily focus on local visual representation by leveraging mask image modeling or sequence contrastive learning. However, they omit modeling the linguistic information in text images, which is crucial for recognizing text. To simultaneously capture local character features and linguistic information in visual space, we propose Symmetric Superimposition Modeling (SSM). The objective of SSM is to reconstruct the direction-specific pixel and feature signals from the symmetrically superimposed input. Specifically, we add the original image with its inverted views to create the symmetrically superimposed inputs. At the pixel level, we reconstruct the original and inverted images to capture character shapes and texture-level linguistic context. At the feature level, we reconstruct the feature of the same original image and inverted image with different augmentations to model the semantic-level linguistic context and the local character discrimination. In our design, we disrupt the character shape and linguistic rules. Consequently, the dual-level reconstruction facilitates understanding character shapes and linguistic information from the perspective of visual texture and feature semantics. Experiments on various text recognition benchmarks demonstrate the effectiveness and generality of SSM, with 4.1% average performance gains and 86.6% new state-of-the-art average word accuracy on Union14M benchmarks. The code is available at https://github.com/FaltingsA/SSM.