VISTA-OCR: Towards generative and interactive end to end OCR models

📄 arXiv: 2504.03621v1 📥 PDF

作者: Laziz Hamdi, Amine Tamasna, Pascal Boisson, Thierry Paquet

分类: cs.CV

发布日期: 2025-04-04


💡 一句话要点

提出VISTA-OCR,一个生成式交互式端到端OCR模型,统一文本检测与识别。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: OCR 文本检测 文本识别 生成模型 Transformer 端到端学习 多任务学习

📋 核心要点

  1. 传统OCR方法需要独立的文本检测和识别分支,参数量大,VISTA-OCR旨在解决这一问题。
  2. VISTA-OCR采用Transformer解码器,在统一分支中生成文本转录和空间坐标,实现端到端生成式OCR。
  3. 实验表明,VISTA-OCR在标准OCR任务上优于现有模型,并展现了在交互式OCR应用中的潜力。

📝 摘要(中文)

本文介绍VISTA-OCR(视觉和空间感知文本分析OCR),一个轻量级架构,它将文本检测和识别统一在一个生成模型中。与需要独立分支和专用参数进行文本识别和检测的传统方法不同,我们的方法利用Transformer解码器,在统一的分支中顺序生成文本转录及其空间坐标。VISTA-OCR建立在编码器-解码器架构之上,通过视觉特征提取阶段开始逐步训练,然后通过多模态token生成进行多任务学习。为了满足对能够执行高级任务(如基于内容的文本定位)的多功能OCR系统日益增长的需求,我们在预训练期间引入了新的提示可控OCR任务。为了增强模型的能力,我们构建了一个新的数据集,该数据集由带有边界框注释的真实示例和合成样本组成。虽然最近的视觉大型语言模型(VLLM)可以有效地执行这些任务,但它们的高计算成本仍然是实际部署的障碍。相比之下,我们的VISTA$_{\text{omni}}$变体仅使用1.5亿个参数,通过提示交互式地处理手写和打印文档。在多个数据集上的大量实验表明,VISTA-OCR在标准OCR任务上实现了比最先进的专用模型更好的性能,同时显示出更复杂的OCR应用的强大潜力,从而满足了对交互式OCR系统日益增长的需求。VISTA-OCR的所有代码和注释将在接受后公开发布。

🔬 方法详解

问题定义:传统OCR系统通常采用分离的文本检测和识别模块,需要分别训练和优化,增加了复杂性和计算成本。此外,现有方法难以实现交互式的文本定位和编辑等高级功能。因此,需要一个统一的、高效的、可交互的OCR模型。

核心思路:VISTA-OCR的核心思路是将文本检测和识别任务融合到一个生成模型中。通过Transformer解码器,模型能够同时预测文本内容及其空间位置,从而实现端到端的训练和推理。这种统一的方法简化了模型结构,提高了效率,并为交互式OCR应用提供了可能。

技术框架:VISTA-OCR采用编码器-解码器架构。编码器负责提取图像的视觉特征,解码器则利用Transformer结构,顺序生成文本转录和对应的空间坐标。模型训练分为两个阶段:首先是视觉特征提取阶段,然后是多任务学习阶段,其中模型同时学习文本识别和定位。

关键创新:VISTA-OCR的关键创新在于将文本检测和识别统一到一个生成模型中。与传统方法相比,VISTA-OCR不需要单独的检测和识别模块,从而简化了模型结构,降低了计算成本。此外,VISTA-OCR还引入了提示可控的OCR任务,增强了模型的交互能力。

关键设计:VISTA-OCR使用Transformer解码器进行序列生成,损失函数包括文本识别损失和空间坐标回归损失。为了提高模型的泛化能力,作者构建了一个包含真实图像和合成图像的数据集,并对数据进行了增强。VISTA$_{\text{omni}}$变体仅使用1.5亿参数,实现了在手写和打印文档上的高效OCR。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VISTA-OCR在多个数据集上进行了实验,结果表明其性能优于现有的OCR模型。例如,在标准OCR任务上,VISTA-OCR取得了更高的准确率和更快的推理速度。此外,VISTA-OCR还展现了在交互式OCR应用中的潜力,例如基于内容的文本定位。

🎯 应用场景

VISTA-OCR具有广泛的应用前景,包括文档数字化、自动驾驶、智能零售等领域。它可以用于识别和提取图像中的文本信息,例如车牌识别、商品标签识别、票据识别等。此外,VISTA-OCR的交互式能力使其可以应用于文本编辑、内容搜索等高级应用,具有重要的实际价值和未来影响。

📄 摘要(原文)

We introduce \textbf{VISTA-OCR} (Vision and Spatially-aware Text Analysis OCR), a lightweight architecture that unifies text detection and recognition within a single generative model. Unlike conventional methods that require separate branches with dedicated parameters for text recognition and detection, our approach leverages a Transformer decoder to sequentially generate text transcriptions and their spatial coordinates in a unified branch. Built on an encoder-decoder architecture, VISTA-OCR is progressively trained, starting with the visual feature extraction phase, followed by multitask learning with multimodal token generation. To address the increasing demand for versatile OCR systems capable of advanced tasks, such as content-based text localization \ref{content_based_localization}, we introduce new prompt-controllable OCR tasks during pre-training.To enhance the model's capabilities, we built a new dataset composed of real-world examples enriched with bounding box annotations and synthetic samples. Although recent Vision Large Language Models (VLLMs) can efficiently perform these tasks, their high computational cost remains a barrier for practical deployment. In contrast, our VISTA$_{\text{omni}}$ variant processes both handwritten and printed documents with only 150M parameters, interactively, by prompting. Extensive experiments on multiple datasets demonstrate that VISTA-OCR achieves better performance compared to state-of-the-art specialized models on standard OCR tasks while showing strong potential for more sophisticated OCR applications, addressing the growing need for interactive OCR systems. All code and annotations for VISTA-OCR will be made publicly available upon acceptance.