GLM-OCR Technical Report

📄 arXiv: 2603.10910v1 📥 PDF

作者: Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang

分类: cs.CL

发布日期: 2026-03-11


💡 一句话要点

GLM-OCR:一种高效紧凑的多模态模型,用于现实文档理解任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档理解 OCR 多模态模型 视觉编码器 语言解码器 多Token预测 边缘部署

📋 核心要点

  1. 现有OCR方法在处理复杂文档时效率较低,尤其是在确定性任务中,自回归解码成为瓶颈。
  2. GLM-OCR通过结合CogViT视觉编码器和GLM语言解码器,并引入多Token预测机制,提升解码效率。
  3. 实验表明,GLM-OCR在文档解析、文本转录等任务上表现出色,适用于边缘部署和大规模生产。

📝 摘要(中文)

GLM-OCR是一个高效的0.9B参数紧凑型多模态模型,专为现实世界的文档理解而设计。它结合了一个0.4B参数的CogViT视觉编码器和一个0.5B参数的GLM语言解码器,在计算效率和识别性能之间实现了强大的平衡。为了解决确定性OCR任务中标准自回归解码的低效问题,GLM-OCR引入了一种多Token预测(MTP)机制,该机制每步预测多个token,从而显著提高了解码吞吐量,同时通过共享参数保持较低的内存开销。在系统层面,采用两阶段流程:PP-DocLayout-V3首先执行布局分析,然后进行并行区域级识别。在公共基准和工业场景中的广泛评估表明,GLM-OCR在文档解析、文本和公式转录、表格结构恢复以及关键信息提取方面实现了有竞争力或最先进的性能。其紧凑的架构和结构化生成使其适用于资源受限的边缘部署和大规模生产系统。

🔬 方法详解

问题定义:现有OCR方法在处理文档理解任务时,尤其是在确定性OCR任务中,标准的自回归解码效率较低,成为性能瓶颈。此外,如何在计算效率和识别精度之间取得平衡也是一个挑战。

核心思路:GLM-OCR的核心思路是构建一个紧凑高效的多模态模型,通过结合视觉编码器和语言解码器,并引入多Token预测(MTP)机制来提高解码吞吐量。MTP允许模型每步预测多个token,从而减少解码步骤,提高效率。

技术框架:GLM-OCR采用两阶段流程。第一阶段使用PP-DocLayout-V3进行文档布局分析,将文档分割成不同的区域。第二阶段对每个区域进行并行识别,使用结合了CogViT视觉编码器和GLM语言解码器的模型进行文本识别和结构化信息提取。

关键创新:GLM-OCR的关键创新在于多Token预测(MTP)机制。与传统的自回归解码每次只预测一个token不同,MTP允许模型在每一步预测多个token,从而显著提高了解码速度。此外,通过共享参数,MTP保持了较低的内存开销。

关键设计:GLM-OCR使用了一个0.4B参数的CogViT视觉编码器和一个0.5B参数的GLM语言解码器。MTP机制的具体实现细节(例如,每步预测的token数量)以及损失函数的设计(如何平衡不同token的预测精度)在论文中可能有所描述,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GLM-OCR在多个公共基准和工业场景中取得了有竞争力的或最先进的性能。具体性能数据(例如,在特定数据集上的准确率、F1值等)以及与哪些基线方法进行了比较,提升幅度如何,需要在论文中查找具体数据。总体而言,该模型在文档解析、文本和公式转录、表格结构恢复以及关键信息提取方面表现出色。

🎯 应用场景

GLM-OCR具有广泛的应用前景,包括自动化文档处理、数字化图书馆、金融票据识别、法律文件分析等领域。其紧凑的架构使其能够部署在资源受限的边缘设备上,实现实时的文档理解。同时,其高性能也使其适用于大规模生产系统,提高工作效率。

📄 摘要(原文)

GLM-OCR is an efficient 0.9B-parameter compact multimodal model designed for real-world document understanding. It combines a 0.4B-parameter CogViT visual encoder with a 0.5B-parameter GLM language decoder, achieving a strong balance between computational efficiency and recognition performance. To address the inefficiency of standard autoregressive decoding in deterministic OCR tasks, GLM-OCR introduces a Multi-Token Prediction (MTP) mechanism that predicts multiple tokens per step, significantly improving decoding throughput while keeping memory overhead low through shared parameters. At the system level, a two-stage pipeline is adopted: PP-DocLayout-V3 first performs layout analysis, followed by parallel region-level recognition. Extensive evaluations on public benchmarks and industrial scenarios show that GLM-OCR achieves competitive or state-of-the-art performance in document parsing, text and formula transcription, table structure recovery, and key information extraction. Its compact architecture and structured generation make it suitable for both resource-constrained edge deployment and large-scale production systems.