Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation
作者: Junxin Lu, Tengfei Song, Zhanglin Wu, Pengfei Li, Xiaowei Liang, Hui Yang, Kun Chen, Ning Xie, Yunfei Lu, Jing Zhao, Shiliang Sun, Daimeng Wei
分类: cs.CV
发布日期: 2026-02-25
💡 一句话要点
GLoTran:面向高分辨率富文本图像翻译,提出全局-局部双重感知MLLM框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本图像翻译 多模态大语言模型 全局-局部感知 高分辨率图像 富文本图像
📋 核心要点
- 现有TIMT方法难以处理高分辨率富文本图像,面临文本遗漏、语义漂移和上下文不一致等问题。
- GLoTran通过全局低分辨率图像和局部多尺度文本切片,实现双重视觉感知,提升翻译质量。
- 构建了大规模GLoD数据集,实验证明GLoTran在翻译完整性和准确性方面优于现有MLLM方法。
📝 摘要(中文)
本文提出了一种用于基于多模态大语言模型(MLLM)的文本图像机器翻译(TIMT)的全局-局部双重视觉感知框架GLoTran,旨在解决现有方法在高分辨率富文本图像处理中面临的挑战,如布局杂乱、字体多样和非文本干扰导致的文本遗漏、语义漂移和上下文不一致等问题。GLoTran集成了低分辨率全局图像和多尺度区域级文本图像切片,通过指令引导的对齐策略,使MLLM能够保持场景级的上下文一致性,同时准确捕捉细粒度的文本细节。此外,为了支持该双重感知范式,构建了一个名为GLoD的大规模富文本TIMT数据集,包含510K高分辨率全局-局部图像-文本对,覆盖了各种真实场景。大量实验表明,GLoTran显著提高了翻译的完整性和准确性,优于最先进的MLLM,为高分辨率和富文本条件下的细粒度TIMT提供了一种新的范式。
🔬 方法详解
问题定义:论文旨在解决文本图像机器翻译(TIMT)任务中,现有方法在高分辨率、富文本图像上表现不佳的问题。现有方法,无论是级联pipeline还是端到端MLLM,都难以有效处理复杂布局、多样字体和非文本干扰,导致翻译结果出现文本遗漏、语义漂移和上下文不一致等问题。
核心思路:论文的核心思路是引入全局-局部双重视觉感知机制。通过全局图像把握整体场景上下文,同时利用局部多尺度文本图像切片提取细粒度的文本信息。这种双重感知机制旨在使模型既能理解图像的整体语义,又能准确识别和翻译其中的文本内容。
技术框架:GLoTran框架主要包含两个部分:全局图像处理分支和局部文本图像切片处理分支。全局图像分支处理低分辨率的全局图像,提供场景级别的上下文信息。局部文本图像切片分支处理多尺度的文本图像切片,提取细粒度的文本特征。这两个分支的输出随后被融合,并输入到MLLM中进行翻译。此外,还设计了指令引导的对齐策略,用于对齐全局和局部信息,确保上下文一致性。
关键创新:最重要的技术创新点在于全局-局部双重感知机制。与以往只关注全局或局部信息的方法不同,GLoTran同时考虑了全局场景上下文和局部文本细节,从而提高了翻译的准确性和完整性。此外,构建大规模数据集GLoD也是一个重要贡献,为训练和评估TIMT模型提供了高质量的数据资源。
关键设计:指令引导的对齐策略是关键设计之一,它通过特定的指令引导MLLM关注全局和局部信息之间的关系,从而实现更好的对齐效果。具体实现细节(如指令的具体内容、对齐损失函数等)在论文中可能有所描述。此外,多尺度文本图像切片的设计也至关重要,不同的尺度可以捕捉不同大小的文本信息,从而提高文本识别的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GLoTran在TIMT任务上显著优于现有的MLLM方法。具体而言,GLoTran在翻译完整性和准确性方面均取得了显著提升,尤其是在处理高分辨率、富文本图像时,优势更加明显。论文中可能提供了具体的性能指标和对比实验结果,例如BLEU score、ROUGE score等。
🎯 应用场景
该研究成果可应用于多种场景,如跨境电商、旅游指南、文档翻译等。通过自动翻译图像中的文本,可以帮助用户理解不同语言的商品信息、景点介绍和文档内容,促进跨文化交流和信息共享。未来,该技术有望进一步应用于智能客服、自动驾驶等领域,提升人机交互的智能化水平。
📄 摘要(原文)
Text Image Machine Translation (TIMT) aims to translate text embedded in images in the source-language into target-language, requiring synergistic integration of visual perception and linguistic understanding. Existing TIMT methods, whether cascaded pipelines or end-to-end multimodal large language models (MLLMs),struggle with high-resolution text-rich images due to cluttered layouts, diverse fonts, and non-textual distractions, resulting in text omission, semantic drift, and contextual inconsistency. To address these challenges, we propose GLoTran, a global-local dual visual perception framework for MLLM-based TIMT. GLoTran integrates a low-resolution global image with multi-scale region-level text image slices under an instruction-guided alignment strategy, conditioning MLLMs to maintain scene-level contextual consistency while faithfully capturing fine-grained textual details. Moreover, to realize this dual-perception paradigm, we construct GLoD, a large-scale text-rich TIMT dataset comprising 510K high-resolution global-local image-text pairs covering diverse real-world scenarios. Extensive experiments demonstrate that GLoTran substantially improves translation completeness and accuracy over state-of-the-art MLLMs, offering a new paradigm for fine-grained TIMT under high-resolution and text-rich conditions.