SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

📄 arXiv: 2602.22426 📥 PDF

作者: Yibo Peng, Peng Xia, Ding Zhong, Kaide Zeng, Siwei Han, Yiyang Zhou, Jiaqi Liu, Ruiyi Zhang, Huaxiu Yao

分类: cs.CV, cs.LG

发布日期: 2026-02-28


💡 一句话要点

SimpleOCR:通过渲染可视化问题训练MLLM以提升其阅读能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉问答 OCR 模态惰性 可视化问题 迁移学习 数据效率

📋 核心要点

  1. 现有的多模态大语言模型可能依赖文本提示的参数捷径,而非真正“阅读”图像中的文本。
  2. SimpleOCR通过将文本查询渲染到图像上,强制模型进行视觉参与,避免依赖文本捷径。
  3. SimpleOCR在多个OOD基准测试中超越了基线模型,且具有极高的数据效率。

📝 摘要(中文)

尽管多模态大型语言模型(MLLM)取得了快速进展,但关于其视觉基础机制的一个关键问题仍未得到解答:这些模型是否真正“阅读”图像中嵌入的文本,或者仅仅依赖于文本提示中的参数捷径?本文通过引入可视化问题(VQ)设置来诊断这个问题,其中文本查询直接渲染到图像上,以在结构上强制视觉参与。在Qwen2.5-VL上的诊断实验揭示了一个惊人的能力利用差距:尽管具有强大的OCR能力,但在VQ设置中,模型的性能下降高达12.7%,暴露了根深蒂固的“模态惰性”。为了弥合这一差距,我们提出SimpleOCR,一种即插即用的训练策略,它对学习过程施加结构约束。通过使用随机样式将训练样本转换为VQ格式,SimpleOCR有效地使基于文本的捷径失效,迫使模型激活并优化其视觉文本提取路径。在经验上,SimpleOCR在没有架构修改的情况下产生了稳健的增益。在四个具有代表性的OOD基准测试中,它超过了原始图像上的基础模型5.4%和GRPO 2.7%,同时表现出极高的数据效率,以比最近基于RL的方法少30倍的样本(8.5K)实现了卓越的性能。此外,其即插即用的特性允许与NoisyRollout等先进的RL策略无缝集成,以产生互补的改进。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在处理图像中的文本时,可能并没有真正利用其视觉能力进行“阅读”,而是走了捷径,直接依赖文本提示中的参数信息。这导致模型在需要真正理解图像文本的场景下表现不佳。

核心思路:SimpleOCR的核心思路是通过一种结构性的约束,迫使模型必须利用其视觉文本提取能力。具体来说,就是将文本查询直接渲染到图像上,形成“可视化问题”(VQ),从而避免模型直接从文本提示中获取信息。

技术框架:SimpleOCR是一种即插即用的训练策略,不需要修改模型架构。其主要流程是将训练样本转换为VQ格式,并使用随机样式进行渲染。这样,模型在训练过程中就必须学会从图像中提取文本信息,才能正确回答问题。

关键创新:SimpleOCR最重要的创新点在于其结构性的约束。通过将文本渲染到图像上,它有效地阻止了模型利用文本提示中的参数捷径,迫使模型激活并优化其视觉文本提取路径。这种方法简单有效,且不需要修改模型架构。

关键设计:SimpleOCR的关键设计在于VQ格式的生成和随机样式的应用。VQ格式确保文本信息必须通过视觉通道获取,而随机样式则增加了模型的泛化能力。具体的参数设置和损失函数等细节,论文中可能没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SimpleOCR在四个具有代表性的OOD基准测试中,超越了原始图像上的基础模型5.4%和GRPO 2.7%。更重要的是,它以极高的数据效率实现了卓越的性能,仅使用8.5K个样本,比最近基于RL的方法少30倍。这表明SimpleOCR能够有效地利用数据,提高模型的泛化能力。

🎯 应用场景

SimpleOCR具有广泛的应用前景,可以应用于各种需要理解图像中文字的场景,例如文档理解、场景文本识别、视觉问答等。该方法可以提高MLLM在这些场景下的性能和鲁棒性,使其能够更好地理解真实世界的图像信息。此外,SimpleOCR的即插即用特性也使其易于集成到现有的MLLM训练流程中。

📄 摘要(原文)

Despite the rapid advancements in Multimodal Large Language Models (MLLMs), a critical question regarding their visual grounding mechanism remains unanswered: do these models genuinely read'' text embedded in images, or do they merely rely on parametric shortcuts in the text prompt? In this work, we diagnose this issue by introducing the Visualized-Question (VQ) setting, where text queries are rendered directly onto images to structurally mandate visual engagement. Our diagnostic experiments on Qwen2.5-VL reveal a startling capability-utilization gap: despite possessing strong OCR capabilities, models suffer a performance degradation of up to 12.7% in the VQ setting, exposing a deep-seatedmodality laziness.'' To bridge this gap, we propose SimpleOCR, a plug-and-play training strategy that imposes a structural constraint on the learning process. By transforming training samples into the VQ format with randomized styles, SimpleOCR effectively invalidates text-based shortcuts, compelling the model to activate and optimize its visual text extraction pathways. Empirically, SimpleOCR yields robust gains without architectural modifications. On four representative OOD benchmarks, it surpasses the base model by 5.4% and GRPO based on original images by 2.7%, while exhibiting extreme data efficiency, achieving superior performance with 30x fewer samples (8.5K) than recent RL-based methods. Furthermore, its plug-and-play nature allows seamless integration with advanced RL strategies like NoisyRollout to yield complementary improvements. Code is available atthis https URL.