Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs
作者: Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai
分类: cs.CL, cs.CV
发布日期: 2026-03-10
💡 一句话要点
针对多模态LLM中“文本像素化”的模态差异问题,提出自蒸馏方法显著提升视觉文本理解能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉文本理解 自蒸馏 模态差异 大型语言模型
📋 核心要点
- 多模态大语言模型在处理图像形式的文本时,性能显著低于处理文本token,存在“模态差异”问题。
- 论文提出一种自蒸馏方法,利用模型自身的纯文本推理轨迹,结合图像输入进行训练,以弥合模态差异。
- 实验结果表明,该方法在GSM8K数据集上将图像模式准确率从30.71%提升至92.72%,并具备泛化能力。
📝 摘要(中文)
多模态大型语言模型(MLLM)可以处理以图像形式呈现的文本,但通常比以文本token形式提供相同内容时表现更差。本文系统地诊断了这种“模态差异”,通过在五个输入模式下,跨七个基准测试评估了七个MLLM,涵盖了合成渲染文本和来自arXiv PDF到维基百科页面的真实文档图像。研究发现模态差异与任务和数据相关。例如,数学任务在合成渲染上的性能下降超过60个百分点,而自然文档图像通常与文本模式的性能相匹配或超过。字体和分辨率等渲染选择是强干扰因素,仅字体一项就可能使准确率波动高达47个百分点。为了理解这一点,我们对超过4,000个示例进行了扎根理论的错误分析,揭示了图像模式选择性地放大了阅读错误(计算和格式错误),而知识和推理错误基本保持不变,并且一些模型在视觉输入下表现出思维链推理崩溃。受这些发现的启发,我们提出了一种自蒸馏方法,该方法在模型自身的纯文本推理轨迹上,结合图像输入进行训练,将GSM8K上的图像模式准确率从30.71%提高到92.72%,并转移到未见过的基准测试,而不会发生灾难性遗忘。总的来说,我们的研究提供了对模态差异的系统理解,并为改进多模态语言模型中的视觉文本理解提供了一条实用的途径。
🔬 方法详解
问题定义:多模态大型语言模型(MLLM)在处理图像形式的文本时,性能会显著下降,与直接处理文本token相比存在“模态差异”。现有的MLLM在处理视觉文本时,容易受到图像质量、字体、分辨率等因素的影响,导致阅读错误,进而影响整体性能。这种模态差异限制了MLLM在实际应用中的能力,例如处理文档图像、扫描件等。
核心思路:论文的核心思路是通过自蒸馏的方法,让模型学习如何更好地“阅读”图像中的文本,从而弥合模态差异。具体来说,利用模型在纯文本输入下的推理过程作为“教师”,指导模型在图像输入下的学习。这样可以有效地纠正图像输入带来的阅读错误,提高模型在视觉文本理解方面的能力。这种方法的核心在于利用模型自身的能力来提升其在特定模态下的表现。
技术框架:该方法主要包含两个阶段:1) 使用纯文本数据训练模型,得到模型的推理轨迹(即每一步的推理过程)。2) 使用图像数据和对应的纯文本推理轨迹,对模型进行自蒸馏训练。在自蒸馏训练过程中,图像作为输入,纯文本推理轨迹作为目标,模型学习如何从图像中提取信息,并进行正确的推理。整体流程可以看作是一个“教师-学生”模型,其中“教师”是模型自身在纯文本输入下的表现,“学生”是模型在图像输入下的表现。
关键创新:该方法最重要的创新点在于利用自蒸馏的方式,将纯文本推理的知识迁移到视觉文本理解中。与传统的蒸馏方法不同,该方法不需要额外的教师模型,而是利用模型自身在不同模态下的表现进行互相学习。这种自蒸馏的方式可以有效地利用已有的知识,提高模型的学习效率和泛化能力。此外,该方法还针对视觉文本理解的特点,选择了合适的训练数据和损失函数,从而取得了显著的效果。
关键设计:在自蒸馏训练过程中,关键的设计包括:1) 选择合适的图像数据,例如合成渲染的文本图像和真实的文档图像。2) 使用交叉熵损失函数,衡量模型在图像输入下的推理结果与纯文本推理轨迹之间的差异。3) 调整训练参数,例如学习率、batch size等,以获得最佳的训练效果。此外,还可以采用一些数据增强技术,例如随机裁剪、旋转等,以提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
该研究通过自蒸馏方法,显著提升了MLLM在视觉文本理解方面的性能。在GSM8K数据集上,图像模式的准确率从30.71%提升至92.72%。此外,该方法还具有良好的泛化能力,可以迁移到未见过的基准测试,且不会发生灾难性遗忘。实验结果表明,该方法能够有效地弥合模态差异,提高MLLM在实际应用中的能力。
🎯 应用场景
该研究成果可广泛应用于文档理解、信息抽取、智能办公等领域。例如,可以提升MLLM在处理扫描文档、屏幕截图等场景下的性能,使其能够更准确地理解和处理图像中的文本信息。此外,该方法还可以应用于其他模态的知识迁移,例如将语音识别的知识迁移到视觉识别中,从而提高模型的整体性能。
📄 摘要(原文)
Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.