Multimodal OCR: Parse Anything from Documents
作者: Handong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai
分类: cs.CV
发布日期: 2026-03-13
🔗 代码/项目: GITHUB
💡 一句话要点
提出Multimodal OCR,统一解析文档中的文本和图形元素。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态OCR 文档解析 结构化图形解析 图像到代码 Transformer 多模态预训练 文档理解
📋 核心要点
- 传统OCR系统忽略文档中的图形元素,导致信息丢失和语义关系断裂,限制了文档的完整理解和重用。
- dots.mocr将文本和图形统一建模,通过端到端训练学习二者之间的语义关联,实现文档的全面解析和结构化表示。
- dots.mocr在文档解析和结构化图形解析任务上均取得了领先成果,为构建大规模多模态预训练语料库奠定了基础。
📝 摘要(中文)
本文提出了一种多模态OCR(MOCR)文档解析范式,该范式将文本和图形联合解析为统一的文本表示。与传统OCR系统专注于文本识别并将图形区域视为裁剪像素不同,我们的方法dots.mocr将图表、示意图、表格和图标等视觉元素视为首要解析目标,从而使系统能够在解析文档的同时保留元素之间的语义关系。它具有以下优势:(1)将文本和图形重构为结构化输出,从而实现更真实的文档重构;(2)支持对异构文档元素进行端到端训练,使模型能够利用文本和视觉组件之间的语义关系;(3)将以前丢弃的图形转换为可重用的代码级监督,从而释放嵌入在现有文档中的多模态监督。为了使这种范式在规模上可行,我们构建了一个来自PDF、渲染网页和原生SVG资产的综合数据引擎,并通过分阶段预训练和监督微调训练了一个紧凑的30亿参数模型。我们从文档解析和结构化图形解析两个角度评估dots.mocr。在文档解析基准测试中,它在我们的OCR Arena Elo排行榜上仅次于Gemini 3 Pro,超过了现有的开源文档解析系统,并在olmOCR Bench上创造了83.9的新技术水平。在结构化图形解析方面,dots.mocr在图像到SVG基准测试中实现了比Gemini 3 Pro更高的重构质量,展示了在图表、UI布局、科学图形和化学图表方面的强大性能。这些结果表明了一条构建用于多模态预训练的大规模图像到代码语料库的可扩展路径。
🔬 方法详解
问题定义:传统OCR系统主要关注文本识别,将文档中的图表、公式、图像等图形元素视为噪声或简单地裁剪掉,导致文档信息的割裂和语义关系的丢失。这限制了OCR在复杂文档理解、信息抽取和文档重构等任务中的应用。现有方法难以有效利用图形元素中蕴含的丰富信息,也无法实现文本和图形的联合推理。
核心思路:dots.mocr的核心思路是将文档中的文本和图形元素统一建模,视为同等重要的解析目标。通过构建一个能够理解和生成文本和图形的统一模型,实现文档的全面解析和结构化表示。这种方法能够保留文档中元素之间的语义关系,从而提升文档理解的准确性和完整性。
技术框架:dots.mocr的技术框架主要包括数据引擎、模型架构和训练策略三个部分。数据引擎负责从PDF、渲染网页和原生SVG资产中提取和处理数据,构建大规模多模态数据集。模型架构采用Transformer结构,能够同时处理文本和图形输入,并生成结构化的文本表示。训练策略采用分阶段预训练和监督微调的方式,首先在大规模无标注数据上进行预训练,然后在标注数据上进行微调。
关键创新:dots.mocr的关键创新在于其多模态统一建模方法,它打破了传统OCR系统对文本和图形的割裂处理方式,将二者视为统一的解析目标。此外,dots.mocr还提出了利用图形元素进行自监督学习的方法,将以前被丢弃的图形转换为可重用的代码级监督信号,从而提升模型的性能。
关键设计:dots.mocr模型采用了30亿参数的Transformer架构,并针对文档解析任务进行了优化。在训练过程中,采用了多种数据增强技术,例如随机裁剪、旋转和缩放等,以提高模型的鲁棒性。损失函数包括文本识别损失、图形重构损失和语义关系损失等,用于指导模型学习文本和图形的表示以及它们之间的关系。
🖼️ 关键图片
📊 实验亮点
dots.mocr在文档解析基准测试olmOCR Bench上取得了83.9的state-of-the-art结果,并在OCR Arena Elo排行榜上仅次于Gemini 3 Pro。在结构化图形解析方面,dots.mocr在图像到SVG基准测试中实现了比Gemini 3 Pro更高的重构质量,尤其在图表、UI布局、科学图形和化学图表等复杂图形的解析上表现出色。
🎯 应用场景
Multimodal OCR技术在多个领域具有广泛的应用前景,例如自动化文档处理、信息抽取、知识图谱构建、教育资源生成、科学文献分析等。它可以帮助人们更高效地理解和利用文档中的信息,提高工作效率和决策质量。未来,该技术有望应用于智能办公、智能教育、智能科研等领域,推动人工智能技术的发展。
📄 摘要(原文)
We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.