Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation

作者: Andrea Maracani, Savas Ozkan, Sijun Cho, Hyowon Kim, Eunchung Noh, Jeongwon Min, Cho Jung Min, Dookun Park, Mete Ozay

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-03-20

💡 一句话要点

提出高效模型缩放与Cloze自蒸馏，提升场景文本识别精度

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 场景文本识别 模型缩放 自蒸馏 标签噪声 差分交叉注意力

📋 核心要点

现有STR方法对编码器和解码器缩放的贡献研究不足，解码器缩放的潜力未被充分挖掘。
提出Cloze自蒸馏（CSD）方法，利用教师模型的软预测和伪标签，减轻标签噪声对模型训练的影响。
通过差分交叉注意力增强解码器，并在多个基准数据集上取得SOTA性能，同时降低了计算成本。

📝 摘要（中文）

本文深入分析了场景文本识别（STR）中视觉编码器和文本解码器缩放的贡献。研究表明，与之前的观察相反，解码器缩放带来的性能提升始终优于单独编码器缩放。同时，本文指出标签噪声是STR，特别是真实数据中的关键挑战，限制了模型的有效性。为了解决这个问题，本文提出了Cloze自蒸馏（CSD），通过从教师模型生成的上下文感知软预测和伪标签中蒸馏学生模型来减轻标签噪声。此外，本文通过引入差分交叉注意力来增强解码器架构。该方法仅使用真实数据，在11个基准数据集中的10个上实现了最先进的性能，同时显著降低了参数规模和计算成本。

🔬 方法详解

问题定义：场景文本识别（STR）旨在从图像中识别文本。现有方法在模型缩放方面，对视觉编码器和文本解码器的贡献研究不够深入，特别是解码器缩放的潜力未被充分挖掘。此外，真实世界数据中普遍存在的标签噪声严重影响了STR模型的性能。

核心思路：本文的核心思路是，通过深入分析编码器和解码器缩放对STR性能的影响，发现解码器缩放的重要性。同时，利用教师-学生模型的蒸馏框架，通过Cloze自蒸馏（CSD）方法，减轻标签噪声的影响，从而提升STR模型的鲁棒性和准确性。

技术框架：整体框架包含一个教师模型和一个学生模型。教师模型首先在原始数据上进行训练，然后利用教师模型生成软预测和伪标签。接着，通过Cloze自蒸馏（CSD）方法，学生模型从教师模型的软预测和伪标签中学习，从而减轻标签噪声的影响。此外，解码器部分引入了差分交叉注意力机制，增强了模型对文本序列的建模能力。

关键创新：本文的关键创新点包括：1) 深入分析了编码器和解码器缩放对STR性能的影响，发现解码器缩放的重要性；2) 提出了Cloze自蒸馏（CSD）方法，有效减轻了标签噪声的影响；3) 引入了差分交叉注意力机制，增强了解码器的性能。

关键设计：Cloze自蒸馏（CSD）方法的关键在于如何生成高质量的软预测和伪标签。具体来说，教师模型会预测每个字符的概率分布，然后选择概率最高的字符作为伪标签。同时，为了进一步减轻标签噪声的影响，本文还引入了上下文信息，即利用周围字符的信息来修正伪标签。差分交叉注意力机制的关键在于，它允许模型根据不同的上下文信息，自适应地调整注意力权重。

🖼️ 关键图片

📊 实验亮点

该方法在11个基准数据集中的10个上实现了最先进的性能，超越了现有方法，并且仅使用真实数据进行训练。同时，该方法显著降低了参数规模和计算成本，使得模型更易于部署和应用。实验结果表明，解码器缩放和Cloze自蒸馏是提升STR模型性能的有效手段。

🎯 应用场景

该研究成果可广泛应用于图像识别、自动驾驶、文档扫描、智能交通等领域。通过提高场景文本识别的准确性和鲁棒性，可以提升相关应用的性能和用户体验，例如，在自动驾驶中，可以更准确地识别交通标志和路牌，提高驾驶安全性。

📄 摘要（原文）

Scaling architectures have been proven effective for improving Scene Text Recognition (STR), but the individual contribution of vision encoder and text decoder scaling remain under-explored. In this work, we present an in-depth empirical analysis and demonstrate that, contrary to previous observations, scaling the decoder yields significant performance gains, always exceeding those achieved by encoder scaling alone. We also identify label noise as a key challenge in STR, particularly in real-world data, which can limit the effectiveness of STR models. To address this, we propose Cloze Self-Distillation (CSD), a method that mitigates label noise by distilling a student model from context-aware soft predictions and pseudolabels generated by a teacher model. Additionally, we enhance the decoder architecture by introducing differential cross-attention for STR. Our methodology achieves state-of-the-art performance on 10 out of 11 benchmarks using only real data, while significantly reducing the parameter size and computational costs.

Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理