Extremely Fine-Grained Visual Classification over Resembling Glyphs in the Wild

📄 arXiv: 2408.13774v1 📥 PDF

作者: Fares Bougourzi, Fadi Dornaika, Chongsheng Zhang

分类: cs.CV

发布日期: 2024-08-25

备注: 13 pages, 7 Figures, 8 Tables


💡 一句话要点

提出CCFG-Net,解决自然场景下字形相似字符的极细粒度视觉分类难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 极细粒度分类 对比学习 字形识别 自然场景文本识别 CCFG-Net

📋 核心要点

  1. 自然场景文本识别中,字形相似性是导致错误识别的主要原因之一,现有方法难以有效区分。
  2. 提出一种两阶段对比学习方法,并设计了CCFG-Net网络,融合分类和对比学习,增强特征表示能力。
  3. 实验表明,该方法在相似字形识别任务上优于现有细粒度分类方法,包括CNN和Transformer架构。

📝 摘要(中文)

本文针对自然场景下文本识别中字形相似字符难以区分的问题,提出了两个极细粒度视觉识别基准数据集,用于评估模型区分相似字形(字符/字母)的能力。同时,提出了一种简单而有效的两阶段对比学习方法,用于解决相似字形的极细粒度识别任务。第一阶段,利用监督对比学习,通过标签信息预热骨干网络。第二阶段,引入CCFG-Net,该网络架构在欧几里得空间和角度空间中集成了分类和对比学习,以监督学习和成对判别的方式应用对比学习,从而增强模型的特征表示能力。实验结果表明,该方法有效结合了对比学习和分类的优势,提高了相似字形的识别性能。与基于卷积神经网络(CNN)和Transformer的最先进的细粒度分类方法相比,验证了所提方法的优越性。

🔬 方法详解

问题定义:论文旨在解决自然场景下极细粒度的视觉分类问题,特别是针对字形非常相似的字符的识别。现有方法在处理这类问题时,由于特征区分度不高,容易产生混淆,导致识别精度下降。痛点在于如何有效地提取和利用细微的视觉差异来区分这些相似的字符。

核心思路:论文的核心思路是结合对比学习和分类学习的优势,通过对比学习增强特征的区分性,并通过分类学习指导特征表示。具体来说,首先使用监督对比学习预训练骨干网络,使其初步具备区分不同类别的能力。然后,在CCFG-Net中,同时利用分类损失和对比损失,在欧几里得空间和角度空间中进行特征学习,从而提高模型对相似字形的区分能力。

技术框架:整体框架分为两个阶段。第一阶段是预训练阶段,使用监督对比学习对骨干网络进行预热。第二阶段是CCFG-Net训练阶段,该网络同时进行分类和对比学习。CCFG-Net接收图像作为输入,经过骨干网络提取特征后,分别计算分类损失和对比损失。对比损失包括监督对比损失和成对判别损失,分别用于增强类内聚性和类间分离性。最终,将分类损失和对比损失加权求和,作为总损失进行优化。

关键创新:最重要的创新点在于CCFG-Net的设计,它将分类学习和对比学习有机结合,并在欧几里得空间和角度空间中同时进行对比学习。与传统的细粒度分类方法相比,CCFG-Net能够更有效地利用标签信息和成对关系,从而学习到更具区分性的特征表示。此外,两阶段训练策略也提高了模型的训练效率和性能。

关键设计:CCFG-Net的关键设计包括:1) 使用监督对比学习进行预训练,为后续训练提供良好的初始化;2) 在欧几里得空间和角度空间中同时进行对比学习,增强特征的鲁棒性;3) 使用成对判别损失,鼓励模型区分相似的字形;4) 合理设置分类损失和对比损失的权重,平衡分类和对比学习的作用;5) 采用标准的CNN或Transformer作为骨干网络,方便与其他方法进行比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的CCFG-Net在两个极细粒度视觉识别基准数据集上均取得了显著的性能提升。与基于CNN和Transformer的最先进的细粒度分类方法相比,CCFG-Net的识别精度提高了多个百分点,验证了该方法的有效性。具体的性能数据在论文中详细展示。

🎯 应用场景

该研究成果可应用于数字地图、城市街景理解、自动驾驶等领域,提高文本识别的准确性和鲁棒性。例如,在自动驾驶中,可以更准确地识别路牌上的文字,从而提高驾驶安全性。此外,该方法还可以应用于文档图像分析、OCR等领域,具有广泛的应用前景。

📄 摘要(原文)

Text recognition in the wild is an important technique for digital maps and urban scene understanding, in which the natural resembling properties between glyphs is one of the major reasons that lead to wrong recognition results. To address this challenge, we introduce two extremely fine-grained visual recognition benchmark datasets that contain very challenging resembling glyphs (characters/letters) in the wild to be distinguished. Moreover, we propose a simple yet effective two-stage contrastive learning approach to the extremely fine-grained recognition task of resembling glyphs discrimination. In the first stage, we utilize supervised contrastive learning to leverage label information to warm-up the backbone network. In the second stage, we introduce CCFG-Net, a network architecture that integrates classification and contrastive learning in both Euclidean and Angular spaces, in which contrastive learning is applied in both supervised learning and pairwise discrimination manners to enhance the model's feature representation capability. Overall, our proposed approach effectively exploits the complementary strengths of contrastive learning and classification, leading to improved recognition performance on the resembling glyphs. Comparative evaluations with state-of-the-art fine-grained classification approaches under both Convolutional Neural Network (CNN) and Transformer backbones demonstrate the superiority of our proposed method.