Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency

📄 arXiv: 2507.08309v1 📥 PDF

作者: Yupu Liang, Yaping Zhang, Zhiyang Zhang, Zhiyuan Chen, Yang Zhao, Lu Xiang, Chengqing Zong, Yu Zhou

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-07-11

备注: Accepted by ACL 2025 Findings


💡 一句话要点

提出同步自审OCR能力(SSR)微调范式,提升MLLM文档图像机器翻译性能并缓解OCR能力遗忘。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 文档图像机器翻译 光学字符识别 同步自审 灾难性遗忘

📋 核心要点

  1. 现有MLLM在DIMT任务中表现不佳,且通过SFT微调DIMT数据集易导致模型遗忘OCR等单语能力。
  2. 论文提出SSR微调范式,模仿双语认知优势,先让模型生成OCR文本,再进行翻译,从而利用并保留OCR能力。
  3. 实验结果表明,SSR能有效缓解灾难性遗忘,提升MLLM在OCR和DIMT任务上的泛化能力。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在文档图像任务中表现出强大的性能,尤其是在光学字符识别(OCR)方面。然而,它们在文档图像机器翻译(DIMT)方面表现不佳,这需要处理跨模态和跨语言的挑战。先前通过在DIMT数据集上进行监督微调(SFT)来增强DIMT能力的尝试,通常会导致模型忘记其现有的单语能力,例如OCR。为了应对这些挑战,我们引入了一种新颖的微调范式,称为同步自审(SSR)其OCR能力,灵感来自“双语认知优势”的概念。具体来说,SSR提示模型在生成翻译文本之前生成OCR文本,这使得模型能够利用其强大的单语OCR能力,同时学习跨语言翻译文本。全面的实验表明,所提出的SSR学习有助于减轻灾难性遗忘,提高MLLM在OCR和DIMT任务上的泛化能力。

🔬 方法详解

问题定义:文档图像机器翻译(DIMT)任务需要同时处理跨模态(图像到文本)和跨语言的挑战。现有的方法,特别是基于监督微调(SFT)的方法,在DIMT数据集上进行训练时,容易导致模型忘记其原有的单语能力,例如OCR能力,即所谓的“灾难性遗忘”问题。

核心思路:论文的核心思路是借鉴“双语认知优势”的概念,即双语者在认知处理方面具有一定的优势。具体来说,在进行DIMT任务时,首先让模型回顾并利用其OCR能力,然后再进行翻译。通过这种方式,模型可以在学习翻译的同时,保持甚至增强其OCR能力,从而缓解灾难性遗忘。

技术框架:SSR(Synchronously Self-Reviewing)微调范式的整体流程如下:首先,给定一个文档图像,模型首先被提示生成OCR文本。然后,基于生成的OCR文本和原始图像,模型被提示生成翻译文本。这两个阶段是同步进行的,即模型在生成翻译文本的同时,也在不断地回顾和利用其OCR能力。

关键创新:该方法最重要的创新点在于提出了同步自审(SSR)的微调范式。与传统的SFT方法不同,SSR不是直接让模型学习翻译,而是通过让模型先生成OCR文本,再进行翻译,从而利用和保留了模型的OCR能力。这种方法有效地缓解了灾难性遗忘问题,提高了模型的泛化能力。

关键设计:SSR的关键设计在于提示(Prompt)的设计。论文设计了特定的Prompt,引导模型首先生成OCR文本,然后再生成翻译文本。具体来说,Prompt可以包含指令,例如“请首先识别图像中的文本”和“请将识别出的文本翻译成目标语言”。此外,损失函数的设计也至关重要,需要同时考虑OCR和翻译的准确性。具体参数设置和网络结构细节在论文中未明确给出,属于未知信息。

📊 实验亮点

实验结果表明,提出的SSR微调范式能够有效缓解MLLM在DIMT任务中的灾难性遗忘问题。具体来说,SSR在提升DIMT性能的同时,也显著提高了模型的OCR准确率。相较于传统的SFT方法,SSR在OCR和DIMT任务上均取得了显著的性能提升,具体提升幅度未知。

🎯 应用场景

该研究成果可广泛应用于自动化文档翻译、跨境电商、国际学术交流等领域。通过提升文档图像机器翻译的准确性和效率,可以帮助用户更便捷地获取和理解不同语言的文档信息,促进全球范围内的信息交流和知识共享。未来,该技术有望应用于更复杂的文档处理场景,例如手写文档翻译、古籍数字化等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have shown strong performance in document image tasks, especially Optical Character Recognition (OCR). However, they struggle with Document Image Machine Translation (DIMT), which requires handling both cross-modal and cross-lingual challenges. Previous efforts to enhance DIMT capability through Supervised Fine-Tuning (SFT) on the DIMT dataset often result in the forgetting of the model's existing monolingual abilities, such as OCR. To address these challenges, we introduce a novel fine-tuning paradigm, named Synchronously Self-Reviewing (SSR) its OCR proficiency, inspired by the concept "Bilingual Cognitive Advantage". Specifically, SSR prompts the model to generate OCR text before producing translation text, which allows the model to leverage its strong monolingual OCR ability while learning to translate text across languages. Comprehensive experiments demonstrate the proposed SSR learning helps mitigate catastrophic forgetting, improving the generalization ability of MLLMs on both OCR and DIMT tasks.