Joint Low-level and High-level Textual Representation Learning with Multiple Masking Strategies

作者: Zhengmi Tang, Yuto Mitsui, Tomo Miyazaki, Shinichiro Omachi

分类: cs.CV

发布日期: 2025-05-11

💡 一句话要点

提出多重掩码策略MMS，联合学习文本识别的低级纹理和高级语义表示。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 文本识别 自监督学习 掩码图像建模 多重掩码策略 低级特征 高级特征 深度学习

📋 核心要点

现有文本识别方法在真实场景中表现不佳，因为合成数据难以模拟真实世界的复杂性。
论文提出多重掩码策略（MMS），通过结合不同类型的掩码，使模型同时学习低级纹理和高级语义特征。
实验表明，MMS在文本识别、分割和超分辨率等任务上，均超越了现有的自监督学习方法。

📝 摘要（中文）

由于真实世界带标注数据集的稀缺性，现有文本识别方法大多基于大规模合成数据集训练。然而，合成图像无法真实再现真实场景，如不均匀光照、不规则布局、遮挡和退化，导致处理复杂真实图像时性能下降。最近的自监督学习技术，特别是对比学习和掩码图像建模（MIM），通过利用未标注的真实文本图像缩小了这种领域差距。本研究首先分析了原始的掩码自编码器（MAE），发现随机patch掩码主要捕获低级纹理特征，而忽略了高级上下文表示。为了充分利用高级上下文表示，我们在文本识别任务中引入了随机块状和跨度掩码。这些策略可以掩盖连续的图像块并完全移除某些字符，迫使模型推断单词中字符之间的关系。我们的多重掩码策略（MMS）将随机patch、块状和跨度掩码集成到MIM框架中，联合学习低级和高级文本表示。在使用真实数据进行微调后，MMS在各种文本相关任务（包括文本识别、分割和文本图像超分辨率）中优于最先进的自监督方法。

🔬 方法详解

问题定义：现有文本识别方法依赖于大规模合成数据集，但合成数据与真实数据存在显著差异，导致模型在处理真实场景中的文本图像时性能下降。现有方法，如直接使用MAE，主要关注低级纹理特征，忽略了文本中蕴含的高级上下文信息。

核心思路：论文的核心思路是通过引入多重掩码策略（MMS），迫使模型同时学习文本图像的低级纹理特征和高级上下文信息。通过结合随机patch掩码、块状掩码和跨度掩码，模型能够更好地理解字符之间的关系，从而提升在真实场景中的文本识别能力。

技术框架：MMS方法基于掩码图像建模（MIM）框架。首先，输入文本图像经过多重掩码策略处理，生成部分可见的图像。然后，编码器将可见部分编码成潜在表示。解码器接收潜在表示，并尝试重建原始图像。通过最小化重建误差，模型学习到文本图像的表示。最后，使用真实数据对模型进行微调，以适应真实场景的特点。

关键创新：MMS的关键创新在于提出了多重掩码策略，将随机patch掩码、块状掩码和跨度掩码结合起来。随机patch掩码关注低级纹理特征，块状掩码关注局部上下文信息，跨度掩码关注字符之间的长距离依赖关系。这种多重掩码策略能够更全面地学习文本图像的表示。与现有方法只关注低级特征或单一类型的掩码相比，MMS能够更好地捕捉文本图像的复杂性。

关键设计：MMS使用三种掩码策略：随机patch掩码，随机选择图像块进行掩盖；块状掩码，随机选择连续的图像块进行掩盖；跨度掩码，随机选择一定长度的字符跨度进行掩盖。掩码比例等参数需要根据具体任务进行调整。损失函数通常采用像素级别的均方误差（MSE）或交叉熵损失函数。网络结构可以采用Transformer或卷积神经网络等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MMS在文本识别、分割和超分辨率等任务上均取得了显著的性能提升。例如，在文本识别任务中，MMS相比于现有的自监督学习方法，在多个benchmark数据集上取得了state-of-the-art的结果，验证了多重掩码策略的有效性。

🎯 应用场景

该研究成果可广泛应用于各种文本相关的任务，如文档图像分析、场景文本识别、车牌识别、验证码识别等。通过提升模型在真实场景中的文本识别能力，可以提高自动化系统的效率和准确性，例如自动驾驶、智能安防和智能文档处理等领域。

📄 摘要（原文）

Most existing text recognition methods are trained on large-scale synthetic datasets due to the scarcity of labeled real-world datasets. Synthetic images, however, cannot faithfully reproduce real-world scenarios, such as uneven illumination, irregular layout, occlusion, and degradation, resulting in performance disparities when handling complex real-world images. Recent self-supervised learning techniques, notably contrastive learning and masked image modeling (MIM), narrow this domain gap by exploiting unlabeled real text images. This study first analyzes the original Masked AutoEncoder (MAE) and observes that random patch masking predominantly captures low-level textural features but misses high-level contextual representations. To fully exploit the high-level contextual representations, we introduce random blockwise and span masking in the text recognition task. These strategies can mask the continuous image patches and completely remove some characters, forcing the model to infer relationships among characters within a word. Our Multi-Masking Strategy (MMS) integrates random patch, blockwise, and span masking into the MIM frame, which jointly learns low and high-level textual representations. After fine-tuning with real data, MMS outperforms the state-of-the-art self-supervised methods in various text-related tasks, including text recognition, segmentation, and text-image super-resolution.

Joint Low-level and High-level Textual Representation Learning with Multiple Masking Strategies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理