MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning

作者: Zhaopeng Feng, Yupu Liang, Shaosheng Cao, Jiayuan Su, Jiahan Ren, Zhe Xu, Yao Hu, Wenxuan Huang, Jian Wu, Zuozhu Liu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-26

备注: Work in progress

💡 一句话要点

提出MT³框架，通过多任务强化学习提升MLLM在文本图像机器翻译任务上的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本图像机器翻译 多任务学习 强化学习 多模态大语言模型 社交媒体分析

📋 核心要点

文本图像机器翻译(TIMT)面临OCR精度、视觉文本推理和翻译质量等多重挑战，现有方法通常依赖多阶段流水线。
MT³框架采用多任务强化学习，针对文本识别、上下文推理和翻译三个子任务进行优化，提升MLLM在TIMT任务上的性能。
MT³-7B-Zero在MIT-10M基准上取得SOTA结果，显著优于Qwen2.5-VL-72B等模型，并展现出良好的泛化能力。

📝 摘要（中文）

本文提出MT³，首个将多任务强化学习应用于MLLM以实现端到端文本图像机器翻译(TIMT)的框架。MT³采用多任务优化范式，针对文本识别、上下文感知推理和翻译三个关键子技能。该框架使用一种新颖的多混合奖励机制进行训练，该机制将基于规则的强化学习策略应用于TIMT的复杂性，从而提供跨任务的细粒度、非二元反馈。此外，为了促进在真实的跨文化和现实世界社交媒体环境中评估TIMT，我们推出了首个社交媒体TIMT基准XHSPost。我们的MT³-7B-Zero在最新的领域内MIT-10M基准测试中取得了最先进的结果，在多个指标上优于Qwen2.5-VL-72B和InternVL2.5-78B等强大的基线模型。此外，该模型还表现出对分布外语言对和数据集的强大泛化能力。深入分析揭示了多任务协同、强化学习初始化、课程设计和奖励制定如何促进MLLM驱动的TIMT。

🔬 方法详解

问题定义：文本图像机器翻译(TIMT)旨在翻译图像中嵌入的文本内容。现有方法通常采用多阶段流水线，需要依次进行OCR、视觉文本推理和翻译，导致误差累积和效率低下。此外，现有方法难以有效利用上下文信息，并且在跨文化和社交媒体等真实场景下的泛化能力有限。

核心思路：MT³的核心思路是将TIMT任务分解为三个关键子任务：文本识别、上下文感知推理和翻译，并采用多任务强化学习同时优化这三个子任务。通过多任务学习，模型可以共享知识并相互促进，从而提高整体性能。强化学习则用于指导模型学习更有效的策略，以应对TIMT任务的复杂性和不确定性。

技术框架：MT³框架基于MLLM，整体流程如下：首先，MLLM接收包含文本的图像作为输入。然后，模型同时执行三个子任务：文本识别（提取图像中的文本）、上下文感知推理（理解图像和文本的上下文信息）和翻译（将文本翻译成目标语言）。最后，通过多混合奖励机制，根据模型在每个子任务上的表现给予奖励，并使用强化学习算法更新模型参数。

关键创新：MT³的关键创新在于以下几点：1) 首次将多任务强化学习应用于MLLM以实现端到端TIMT。2) 提出了一种新颖的多混合奖励机制，可以为每个子任务提供细粒度、非二元反馈。3) 构建了XHSPost基准，用于评估TIMT在真实社交媒体环境中的性能。与现有方法相比，MT³无需多阶段流水线，可以直接从图像到翻译，并且能够更好地利用上下文信息。

关键设计：MT³的关键设计包括：1) 多任务学习的损失函数设计，需要平衡三个子任务之间的权重。2) 强化学习的奖励函数设计，需要根据TIMT任务的特点进行定制，例如，可以根据OCR的准确率、翻译的流畅度和语义一致性等指标来设计奖励。3) 课程学习策略，可以先训练模型在简单样本上的性能，然后再逐步增加难度，以提高模型的学习效率。

🖼️ 关键图片

📊 实验亮点

MT³-7B-Zero在MIT-10M基准测试中取得了最先进的结果，显著优于Qwen2.5-VL-72B和InternVL2.5-78B等强大的基线模型。具体而言，MT³在多个指标上取得了显著提升，并且展现出对分布外语言对和数据集的强大泛化能力。这些结果表明，多任务强化学习可以有效提升MLLM在TIMT任务上的性能。

🎯 应用场景

MT³在可访问性、跨语言信息获取和现实文档理解等领域具有广泛的应用前景。例如，它可以帮助视障人士理解图像中的文本信息，促进跨文化交流，并提高文档处理的自动化程度。未来，该技术有望应用于社交媒体内容理解、智能客服和教育等领域。

📄 摘要（原文）

Text Image Machine Translation (TIMT)-the task of translating textual content embedded in images-is critical for applications in accessibility, cross-lingual information access, and real-world document understanding. However, TIMT remains a complex challenge due to the need for accurate optical character recognition (OCR), robust visual-text reasoning, and high-quality translation, often requiring cascading multi-stage pipelines. Recent advances in large-scale Reinforcement Learning (RL) have improved reasoning in Large Language Models (LLMs) and Multimodal LLMs (MLLMs), but their application to end-to-end TIMT is still underexplored. To bridge this gap, we introduce MT$^{3}$, the first framework to apply Multi-Task RL to MLLMs for end-to-end TIMT. MT$^{3}$ adopts a multi-task optimization paradigm targeting three key sub-skills: text recognition, context-aware reasoning, and translation. It is trained using a novel multi-mixed reward mechanism that adapts rule-based RL strategies to TIMT's intricacies, offering fine-grained, non-binary feedback across tasks. Furthermore, to facilitate the evaluation of TIMT in authentic cross-cultural and real-world social media contexts, we introduced XHSPost, the first social media TIMT benchmark. Our MT$^{3}$-7B-Zero achieves state-of-the-art results on the latest in-domain MIT-10M benchmark, outperforming strong baselines such as Qwen2.5-VL-72B and InternVL2.5-78B by notable margins across multiple metrics. Additionally, the model shows strong generalization to out-of-distribution language pairs and datasets. In-depth analyses reveal how multi-task synergy, reinforcement learning initialization, curriculum design, and reward formulation contribute to advancing MLLM-driven TIMT.

MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理