MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning
作者: Zhaopeng Feng, Yupu Liang, Shaosheng Cao, Jiayuan Su, Jiahan Ren, Zhe Xu, Yao Hu, Wenxuan Huang, Jian Wu, Zuozhu Liu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-05-26
备注: Work in progress
💡 一句话要点
提出MT³框架,通过多任务强化学习提升MLLM在文本图像机器翻译任务上的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本图像机器翻译 多任务学习 强化学习 多模态大语言模型 社交媒体分析
📋 核心要点
- 文本图像机器翻译(TIMT)面临OCR精度、视觉文本推理和翻译质量等多重挑战,现有方法通常依赖多阶段流水线。
- MT³框架采用多任务强化学习,针对文本识别、上下文推理和翻译三个子任务进行优化,提升MLLM在TIMT任务上的性能。
- MT³-7B-Zero在MIT-10M基准上取得SOTA结果,显著优于Qwen2.5-VL-72B等模型,并展现出良好的泛化能力。
📝 摘要(中文)
本文提出MT³,首个将多任务强化学习应用于MLLM以实现端到端文本图像机器翻译(TIMT)的框架。MT³采用多任务优化范式,针对文本识别、上下文感知推理和翻译三个关键子技能。该框架使用一种新颖的多混合奖励机制进行训练,该机制将基于规则的强化学习策略应用于TIMT的复杂性,从而提供跨任务的细粒度、非二元反馈。此外,为了促进在真实的跨文化和现实世界社交媒体环境中评估TIMT,我们推出了首个社交媒体TIMT基准XHSPost。我们的MT³-7B-Zero在最新的领域内MIT-10M基准测试中取得了最先进的结果,在多个指标上优于Qwen2.5-VL-72B和InternVL2.5-78B等强大的基线模型。此外,该模型还表现出对分布外语言对和数据集的强大泛化能力。深入分析揭示了多任务协同、强化学习初始化、课程设计和奖励制定如何促进MLLM驱动的TIMT。
🔬 方法详解
问题定义:文本图像机器翻译(TIMT)旨在翻译图像中嵌入的文本内容。现有方法通常采用多阶段流水线,需要依次进行OCR、视觉文本推理和翻译,导致误差累积和效率低下。此外,现有方法难以有效利用上下文信息,并且在跨文化和社交媒体等真实场景下的泛化能力有限。
核心思路:MT³的核心思路是将TIMT任务分解为三个关键子任务:文本识别、上下文感知推理和翻译,并采用多任务强化学习同时优化这三个子任务。通过多任务学习,模型可以共享知识并相互促进,从而提高整体性能。强化学习则用于指导模型学习更有效的策略,以应对TIMT任务的复杂性和不确定性。
技术框架:MT³框架基于MLLM,整体流程如下:首先,MLLM接收包含文本的图像作为输入。然后,模型同时执行三个子任务:文本识别(提取图像中的文本)、上下文感知推理(理解图像和文本的上下文信息)和翻译(将文本翻译成目标语言)。最后,通过多混合奖励机制,根据模型在每个子任务上的表现给予奖励,并使用强化学习算法更新模型参数。
关键创新:MT³的关键创新在于以下几点:1) 首次将多任务强化学习应用于MLLM以实现端到端TIMT。2) 提出了一种新颖的多混合奖励机制,可以为每个子任务提供细粒度、非二元反馈。3) 构建了XHSPost基准,用于评估TIMT在真实社交媒体环境中的性能。与现有方法相比,MT³无需多阶段流水线,可以直接从图像到翻译,并且能够更好地利用上下文信息。
关键设计:MT³的关键设计包括:1) 多任务学习的损失函数设计,需要平衡三个子任务之间的权重。2) 强化学习的奖励函数设计,需要根据TIMT任务的特点进行定制,例如,可以根据OCR的准确率、翻译的流畅度和语义一致性等指标来设计奖励。3) 课程学习策略,可以先训练模型在简单样本上的性能,然后再逐步增加难度,以提高模型的学习效率。
🖼️ 关键图片
📊 实验亮点
MT³-7B-Zero在MIT-10M基准测试中取得了最先进的结果,显著优于Qwen2.5-VL-72B和InternVL2.5-78B等强大的基线模型。具体而言,MT³在多个指标上取得了显著提升,并且展现出对分布外语言对和数据集的强大泛化能力。这些结果表明,多任务强化学习可以有效提升MLLM在TIMT任务上的性能。
🎯 应用场景
MT³在可访问性、跨语言信息获取和现实文档理解等领域具有广泛的应用前景。例如,它可以帮助视障人士理解图像中的文本信息,促进跨文化交流,并提高文档处理的自动化程度。未来,该技术有望应用于社交媒体内容理解、智能客服和教育等领域。
📄 摘要(原文)
Text Image Machine Translation (TIMT)-the task of translating textual content embedded in images-is critical for applications in accessibility, cross-lingual information access, and real-world document understanding. However, TIMT remains a complex challenge due to the need for accurate optical character recognition (OCR), robust visual-text reasoning, and high-quality translation, often requiring cascading multi-stage pipelines. Recent advances in large-scale Reinforcement Learning (RL) have improved reasoning in Large Language Models (LLMs) and Multimodal LLMs (MLLMs), but their application to end-to-end TIMT is still underexplored. To bridge this gap, we introduce MT$^{3}$, the first framework to apply Multi-Task RL to MLLMs for end-to-end TIMT. MT$^{3}$ adopts a multi-task optimization paradigm targeting three key sub-skills: text recognition, context-aware reasoning, and translation. It is trained using a novel multi-mixed reward mechanism that adapts rule-based RL strategies to TIMT's intricacies, offering fine-grained, non-binary feedback across tasks. Furthermore, to facilitate the evaluation of TIMT in authentic cross-cultural and real-world social media contexts, we introduced XHSPost, the first social media TIMT benchmark. Our MT$^{3}$-7B-Zero achieves state-of-the-art results on the latest in-domain MIT-10M benchmark, outperforming strong baselines such as Qwen2.5-VL-72B and InternVL2.5-78B by notable margins across multiple metrics. Additionally, the model shows strong generalization to out-of-distribution language pairs and datasets. In-depth analyses reveal how multi-task synergy, reinforcement learning initialization, curriculum design, and reward formulation contribute to advancing MLLM-driven TIMT.