Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

作者: Junxin Lu, Tengfei Song, Zhanglin Wu, Pengfei Li, Xiaowei Liang, Hui Yang, Kun Chen, Ning Xie, Yunfei Lu, Jing Zhao, Shiliang Sun, Daimeng Wei

分类: cs.CV

发布日期: 2026-02-25

💡 一句话要点

GLoTran：面向高分辨率富文本图像翻译，提出全局-局部双重感知MLLM框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本图像翻译 多模态大语言模型 全局-局部感知 高分辨率图像 富文本图像

📋 核心要点

现有TIMT方法难以处理高分辨率富文本图像，面临文本遗漏、语义漂移和上下文不一致等问题。
GLoTran通过全局低分辨率图像和局部多尺度文本切片，实现双重视觉感知，提升翻译质量。
构建了大规模GLoD数据集，实验证明GLoTran在翻译完整性和准确性方面优于现有MLLM方法。

📝 摘要（中文）

本文提出了一种用于基于多模态大语言模型(MLLM)的文本图像机器翻译(TIMT)的全局-局部双重视觉感知框架GLoTran，旨在解决现有方法在高分辨率富文本图像处理中面临的挑战，如布局杂乱、字体多样和非文本干扰导致的文本遗漏、语义漂移和上下文不一致等问题。GLoTran集成了低分辨率全局图像和多尺度区域级文本图像切片，通过指令引导的对齐策略，使MLLM能够保持场景级的上下文一致性，同时准确捕捉细粒度的文本细节。此外，为了支持该双重感知范式，构建了一个名为GLoD的大规模富文本TIMT数据集，包含510K高分辨率全局-局部图像-文本对，覆盖了各种真实场景。大量实验表明，GLoTran显著提高了翻译的完整性和准确性，优于最先进的MLLM，为高分辨率和富文本条件下的细粒度TIMT提供了一种新的范式。

🔬 方法详解

问题定义：论文旨在解决文本图像机器翻译（TIMT）任务中，现有方法在高分辨率、富文本图像上表现不佳的问题。现有方法，无论是级联pipeline还是端到端MLLM，都难以有效处理复杂布局、多样字体和非文本干扰，导致翻译结果出现文本遗漏、语义漂移和上下文不一致等问题。

核心思路：论文的核心思路是引入全局-局部双重视觉感知机制。通过全局图像把握整体场景上下文，同时利用局部多尺度文本图像切片提取细粒度的文本信息。这种双重感知机制旨在使模型既能理解图像的整体语义，又能准确识别和翻译其中的文本内容。

技术框架：GLoTran框架主要包含两个部分：全局图像处理分支和局部文本图像切片处理分支。全局图像分支处理低分辨率的全局图像，提供场景级别的上下文信息。局部文本图像切片分支处理多尺度的文本图像切片，提取细粒度的文本特征。这两个分支的输出随后被融合，并输入到MLLM中进行翻译。此外，还设计了指令引导的对齐策略，用于对齐全局和局部信息，确保上下文一致性。

关键创新：最重要的技术创新点在于全局-局部双重感知机制。与以往只关注全局或局部信息的方法不同，GLoTran同时考虑了全局场景上下文和局部文本细节，从而提高了翻译的准确性和完整性。此外，构建大规模数据集GLoD也是一个重要贡献，为训练和评估TIMT模型提供了高质量的数据资源。

关键设计：指令引导的对齐策略是关键设计之一，它通过特定的指令引导MLLM关注全局和局部信息之间的关系，从而实现更好的对齐效果。具体实现细节（如指令的具体内容、对齐损失函数等）在论文中可能有所描述。此外，多尺度文本图像切片的设计也至关重要，不同的尺度可以捕捉不同大小的文本信息，从而提高文本识别的鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GLoTran在TIMT任务上显著优于现有的MLLM方法。具体而言，GLoTran在翻译完整性和准确性方面均取得了显著提升，尤其是在处理高分辨率、富文本图像时，优势更加明显。论文中可能提供了具体的性能指标和对比实验结果，例如BLEU score、ROUGE score等。

🎯 应用场景

该研究成果可应用于多种场景，如跨境电商、旅游指南、文档翻译等。通过自动翻译图像中的文本，可以帮助用户理解不同语言的商品信息、景点介绍和文档内容，促进跨文化交流和信息共享。未来，该技术有望进一步应用于智能客服、自动驾驶等领域，提升人机交互的智能化水平。

📄 摘要（原文）

Text Image Machine Translation (TIMT) aims to translate text embedded in images in the source-language into target-language, requiring synergistic integration of visual perception and linguistic understanding. Existing TIMT methods, whether cascaded pipelines or end-to-end multimodal large language models (MLLMs),struggle with high-resolution text-rich images due to cluttered layouts, diverse fonts, and non-textual distractions, resulting in text omission, semantic drift, and contextual inconsistency. To address these challenges, we propose GLoTran, a global-local dual visual perception framework for MLLM-based TIMT. GLoTran integrates a low-resolution global image with multi-scale region-level text image slices under an instruction-guided alignment strategy, conditioning MLLMs to maintain scene-level contextual consistency while faithfully capturing fine-grained textual details. Moreover, to realize this dual-perception paradigm, we construct GLoD, a large-scale text-rich TIMT dataset comprising 510K high-resolution global-local image-text pairs covering diverse real-world scenarios. Extensive experiments demonstrate that GLoTran substantially improves translation completeness and accuracy over state-of-the-art MLLMs, offering a new paradigm for fine-grained TIMT under high-resolution and text-rich conditions.

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理